新智元報道
編輯:英智
【新智元導讀】大模型之戰烽火正酣,谷歌Gemini 2.5 Pro卻強勢逆襲!Gemini Flash預訓練負責人親自揭祕,深挖Gemini預訓練的關鍵技術,看谷歌如何在模型大小、算力、數據和推理成本間找到最優解。
谷歌憑藉Gemini 2.5 Pro在激烈的大模型競爭中一舉翻盤。
近日,Geimini Flash預訓練負責人Vlad Feinberg在普林斯頓大學分享了相關內容。
他深入分析了Gemini預訓練的方法、挑戰以及方向,如何在模型大小、算力、數據和推理成本間取得平衡。
PPT鏈接:https://vladfeinberg.com/assets/2025-04-24-princeton-talk.pdf
經典擴展定律
模型訓練中,計算資源的合理利用至關重要。
假設有計算資源(C)1000塊H100芯片,運行30天,如何訓練出最佳的LLM呢?
這就涉及到模型參數量(N)和訓練token數量(D)。
對於Transformer,計算量C和N、D之間存在一個近似公式:C≈6×N×D。
MLP是模型的重要組成部分,不同操作的浮點運算量和參數量有所不同。
比如
這個操作,訓練時的浮點運算量是6BTDF,參數量爲DF。
把MLP的多個操作加起來,總訓練浮點運算量約爲18BTDF,參數數量達到3DF。
注意力機制的計算更爲複雜。將注意力機制相關操作的計算量相加,約爲12BTSNH=12BT²NH,參數量爲4DNH。
將MLP和注意力機制的計算量合併,就能瞭解整個模型訓練時的計算量情況。
Kaplan定律
2020年,Kaplan等人的研究揭示了模型性能與數據量、模型規模和計算量之間的關係。
自迴歸Transformer模型中,小模型可以用來預測大模型的性能。
模型性能與算力、參數量、數據量之間存在冪律關係。當計算預算增加10倍時,模型參數量應增加5.37倍,數據量增加1.86倍。
這一結論在當時引起了廣泛關注,點燃了企業的“軍備競賽”。
Chinchilla(龍貓)
然而,2022年,DeepMind對Kaplan的觀點提出了質疑。
Kaplan的研究在每個模型規模下僅運行一次訓練,並用中間損失來估計不同token訓練步數下的損失。
Chinchilla論文指出,基於單次訓練的中間loss點來推斷存在缺陷,通過適當的學習率衰減可以獲得更好的損失值,只有最終的損失值纔是最優的。
論文采用IsoFlops方法,固定浮點運算量預算,同時改變模型規模和訓練token數量。
固定總算力C
訓練多個不同參數N的模型,對應不同數據量D(C≈6×N×D)
找到loss最低的模型N_opt(C)和D_opt(C)
重複以上步驟,得到不同算力下的最優(N,D)點,並擬合
研究發現,模型參數N和數據量D應以大致相同的速率(冪律指數約爲0.5)隨算力C增長,這與Kaplan等的結論大相徑庭。
這意味着,按Kaplan定律訓練的模型,可能存在訓練不足的情況,數據太少,會增加模型後續部署和使用的成本。
爲了進一步優化模型訓練,研究人員嘗試了多種方法。通過不同的計算場景和擬合方式,得到了更精確的係數。
混合專家(MoE)模型的擴展定律展現出了獨特的優勢。與傳統模型相比,在相同的活躍參數數量和固定100B token的情況下,MoE 64E模型的性能更優。
然而,MoE模型對token數據的需求量較大,互聯網上的可用數據逐漸難以滿足其需求,這成爲了發展瓶頸。
爲了解決數據不足的問題,研究人員將目光投向了更多的數據來源。多模態數據,如音頻、視覺、3D 模型、視頻等,爲模型訓練提供了豐富的信息。
合成數據也受到了關注。實際應用中,需要在生成質量與篩選成本之間找到平衡。
實時場景的模型選擇
在谷歌的許多應用場景中,如免費的Gemini聊天機器人、AIO、AIM、Vertex AI(用於模型微調、部署)以及AI Studio(提供生成式API)等,推理效率至關重要。
這些應用需要快速給出準確的響應,對模型的推理速度和效率要求極高。
就拿實時應用來說,Astra和Mariner都需要快速響應。
以一個網絡交互智能體爲例,假設上下文128k,但每次增量只有8k token,解碼需要128 token來生成一個動作,並且動作之間的延遲不超過1秒,其中250毫秒還得用於框架搭建、負載均衡等操作。
用Llama3-70B模型和v5e芯片做實驗,發現單芯片處理8k token需5.7秒。爲了達到0.5秒的API延遲限制,需要搭建4×4 v5e並行。
實時應用中,小模型反而更有優勢,如Gemini Flash/Flash-lite。
Chinchilla的擴展方法雖然在模型訓練的計算優化上有效,但它忽略了推理成本。
在實際應用中,需要綜合考慮訓練和推理的成本,找到更合適的模型和數據配置。
推理優化擴展定律
《超越Chinchilla最優:在語言模型擴展定律中考慮推理因素》這篇論文提出了新的推理優化Scaling Laws。
核心思想是,不僅最小化訓練loss,而是要綜合考慮訓練和推理的總計算量,爲模型優化提供了新的方向。
按照這些公式,在相同計算量下,與Chinchilla最優策略相比,應該訓練更小的模型,並使用更多的數據,因爲推理所需的計算量更少。
當然,這也存在新的挑戰。
計算資源的非同質性:實際應用中計算資源存在差異,用於推理優化的芯片各不相同,給推理優化帶來了困難。
推理量D_inf難以預測:技術進步提高資源利用效率,反而會增加對該資源的需求(傑文斯悖論)。模型質量提升可能會擴大市場,進而影響推理時的token數量D_inf。
擬合效果不佳:不同數據集下,相關參數的擬合效果存在差異。不同token與參數比例的數據子集,擬合得到的 α、β等參數不同,和Chinchilla的擬合結果也有較大差異。
針對這些問題,研究人員採用在數據約束下建模的方法。研究引入新維度,即有意區分數據,提出新的損失函數和數據規模公式,這樣訓練出來的模型更小,對數據重複的魯棒性更強。
對於推理token數量的處理,像Llama3模型,有研究指出其8B和70B參數的模型,在訓練到15T token後,性能仍呈對數線性提升,即D_inf可視爲無窮大。
蒸餾的探索與應用
除了模型大小、數據量和推理成本,知識蒸餾爲推理優化擴展帶來了新的思路。
知識蒸餾擴展定律公式:
通過調整這些參數,可以優化學生模型的性能。
不過,知識蒸餾在實際應用中也有一些問題,比如趨勢影響不明顯、部分情況考慮不周全等,但可以通過權重調整等方法進行改進。
從原理上講,知識蒸餾能降低方差,更好的教師模型能減少偏差,爲模型優化提供了新途徑。
谷歌Gemini預訓練技術對經典擴展定律和推理優化擴展定律都進行了深入研究。
經典擴展定律通過探索模型規模、數據量和計算量之間的關係,不斷優化模型訓練的資源配置。
推理優化擴展定律針對推理成本和效率問題,綜合考慮訓練和推理需求,提出新方法,提升模型整體性能。
同時,知識蒸餾等技術的應用也爲模型的優化提供了更多的途徑。
Vlad Feinberg
Vlad Feinberg畢業於普林斯頓大學計算機科學專業,於加州大學伯克利分校RISE實驗室攻讀博士學位。
後來,Feinberg加入了一家名爲Sisu的初創公司,擔任機器學習主管。他曾任職於谷歌研究院的Cerebra項目,目前在谷歌DeepMind工作。
參考資料:
https://x.com/JeffDean/status/1916541851328544883
https://x.com/FeinbergVlad/status/1915848609775685694
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。