何恺明團隊ELF:語言擴散模型終於跑通

robot
摘要生成中

據動察 Beating 監測,MIT 何恺明團隊發布語言擴散模型 ELF(Embedded Language Flows)。它沒有沿用 GPT 式的自回歸「預測下一個 token」路線,而是把文本生成放進連續 embedding 空間裡完成,直到最後一步才轉換回離散 token。

擴散模型在圖像生成裡已經成熟,但放到文本上一直很別扭:圖像天生是連續信號,語言卻由離散 token 組成。此前不少連續擴散文本模型,要么在生成軌跡中反覆引入 token 級監督,要么需要額外獨立解碼器。ELF 的做法更乾淨:大部分步驟只在連續向量空間裡去噪,最終一步再用共享權重網絡完成離散化。

實驗結果也有沖擊力。在 OpenWebText 無條件生成評測中,105M 參數的 ELF-B 用 32 步採樣達到約 24.1 的 Gen. PPL,優於多種離散和連續擴散語言模型基線。更關鍵的是,ELF-B 只用了約 45B 訓練 token,而對比方法通常超過 500B,訓練 token 少了約一個數量級。這個結果至少說明,連續擴散路線在語言建模裡並沒有被「語言離散性」堵死,之前的問題更可能出在建模接口和採樣設計上。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆