逐個token太慢!大模型原生並行出token,CMU、英偉達Multiverse

市場資訊
昨天

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

機器之心報道

編輯:陳陳、澤南

衆所周知,大語言模型的參數量越來越大,算力需求也越來越可怕,然而因爲“祖宗之法”,推理只能一個一個 token 按順序來。

對此,卡耐基梅隆大學(CMU)Infini-Al-Lab 的研究人員拿出了“多元宇宙”Multiverse,這是一個全新的生成式建模框架,支持原生的並行生成。

參與這項研究的機器學習大佬,CMU 助理教授陳天奇表示,這是一個有前途的大方向。

該研究的一作 Xinyu Yang 表示,Multiverse 的原生並行生成不僅僅是加速——它是我們對 LLM 推理思考方式的根本轉變。更讓人興奮的是,除了優化現有模型之外,他們發現還可以藉助系統級洞察來發現更好的模型架構。

當前主流的大語言模型(如 GPT 系列等)大多采用自迴歸(Autoregressive)生成方式。這種方式通過逐個生成下一個 token,依賴於之前生成的所有內容,從而保證生成的連貫性和邏輯性。然而,這種順序生成的方式存在明顯的侷限性,比如無法利用現代硬件(如 GPU)的並行計算能力,導致生成速度較慢。

與自迴歸生成不同,並行生成可以同時處理多個子任務,顯著提高生成效率和速度。例如,擴散模型(Diffusion Models)和一致性模型(Consistency Models)等非自迴歸架構能夠並行生成多個詞,從而大幅減少生成時間。

然而,現有的並行生成模型(如擴散模型)通常採用暴力並行化方法,忽略了生成過程中的邏輯依賴關係,導致生成結果可能缺乏連貫性或邏輯性。部分原因在於缺乏現實訓練數據來指導何時及如何進行並行生成。

這就引出了一個核心問題:如何設計能同時滿足 1)自適應任務拆分合並、2)無損保留內部狀態、3)普適適配多種並行模式的 LLM 建模框架?

由於自迴歸大語言模型(AR-LLMs)現在佔據主導地位,並且 AR-LLMs 在順序生成過程中經常表現出隱含的並行性。

因此,來自 CMU、英偉達的研究者們通過揭示這些模型序列化輸出中蘊含的豐富內在並行性來展開研究。

本文提出了 Multiverse,這是一個能夠實現原生並行生成的新型生成模型。

隨後,本文通過數據、算法和系統的協同設計構建了一個現實世界的 Multiverse 推理模型,從而能夠快速且無縫地從前沿的 AR-LLMs 進行轉換。

預算控制實驗表明,Multiverse-32B 在使用相同上下文長度的情況下,平均性能比 AR-LLMs 高出 1.87%,展現出更優越的擴展性。這種擴展性進一步帶來了實際的效率提升,在不同 batch size 下實現了高達兩倍的速度提升。

此外,作者已經開源了整個 Multiverse 生態系統,包括數據、模型權重、引擎、支持工具,以及完整的訓練細節與評估方案。

長 CoT 生成:邏輯上是順序的還是並行的?

本文首先基於 s1K-1.1 數據集,對 Deepseek R1 和 Gemini 2.0 Flash Thinking 等自迴歸大語言模型(AR-LLM)的長 CoT 展開分析。

結果發現可並行分支的存在。

這些分支揭示了 AR-LLM 內在的並行特性。如圖 2 所示,它們被劃分爲集體型與選擇型兩類,能以連續或遞歸結構靈活呈現。

更進一步的,表 1 統計數據顯示:在 AR-LLM 生成的長 CoT 軌跡中,並行分支普遍存在。

Multiverse 框架

根據上述發現,本文提出了 Multiverse,這是一個基於 MapReduce 範式構建的新型生成建模框架,它自適應地並行化並無損合併其生成以超越 AR 模型。

如圖 4 所示,該框架採用 MapReduce 結構,內部包含三個階段:

Multiverse 內部集成了 MapReduce 範式,通過三個階段自動完成生成:

(i)Map 階段,用於自適應的任務分解;

(ii)Process 階段,用於並行的子任務執行;

(iii)Reduce 階段,用於無損的結果合成。

爲實現對生成流的自動化控制,Multiverse 進一步採用了一套結構化專用控制標籤來明確定義每個 MapReduce 模塊。如圖 5 所示。

構建一個真實世界 Multiverse 模型

爲了將 Multiverse 部署到實際場景中,該工作提供了一套完整的套件,其中包括 Multiverse Curator(數據生成器)、Multiverse Attention(核心算法)和 Multiverse Engine(優化系統)。該套件能夠實現從領先的 AR 模型到 Multiverse 模型的平滑快速遷移。

數據。本文開發了 Multiverse Curator,這是一個自動化的 LLM 輔助流程,它通過五個步驟將順序推理鏈轉換爲並行結構。

算法設計。本文設計了 Multiverse Attention,以實現並行生成,同時保持訓練效率。這是通過修改注意力掩碼和位置嵌入來實現的,從而在注意力計算中嚴格區分獨立的推理分支,這些分支可以並行訓練,類似於因果注意力機制。

系統實現。本文實現了 Multiverse Engine,它配備了一個專門的解釋器來支持 MapReduce 的執行。通過解釋 Multiverse 模型生成的控制標籤, Multiverse Engine 可以在順序生成和並行生成之間動態切換,且不會產生任何開銷,從而實現靈活的工作流程。

實驗

真實世界推理性能

如表 2 所示,本文報告了 Multiverse-32B 模型在 32K 上下文長度下的複雜推理任務表現。在經過微調後,該模型在各項基準測試中相較 Qwen2.5-32B-Instruct 模型分別提升了 38%、35%、11% 和 14%。值得注意的是,與 Autoregressive-32B 的對比實驗表明,Multiverse-32B 達到甚至超越了自迴歸模型的性能水平。

本文還評估了 Multiverse-32B-Zero 結果,這是一個未使用並行思考指令提示的變體。比較這兩個變體,可以發現截然不同的性能模式:Multiverse-32B 在 AIME 任務上實現了更高的並行性,從而略微提升了性能;而 Multiverse-32B-Zero 在需要較短生成序列的任務上表現更佳。

擴展性能

爲了凸顯並行生成的優勢,本文在 GPQA-Diamond 和 MATH500 上進行了預算控制實驗。如圖 7 所示,雖然更長的上下文提升了兩個模型的性能,但 Multiverse-32B 在相同的上下文長度內生成了更多 Token。這種並行擴展使 GPQA-Diamond 的性能提升了 2.23%(並行數量 = 1.17),MATH500 的性能提升了 1.51%(並行數量 = 1.15)。

效率分析

圖 8a 結果表明,Multiverse 通過提升並行度顯著增強了生成效率。

圖 8b 結果表明,隨着 batch size 從 1 增加到 128,生成過程依然受限於內存帶寬。因此,Multiverse 的加速比隨着並行度的提升呈線性增長,在多種配置下都展現出出色的可擴展性。

更多細節請查看論文原文。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10