楊植麟回覆:Kimi K2訓練用的H800!但「只花了460萬美元」嘛…

量子位
2025/11/11

夢晨 發自 凹非寺

量子位 | 公衆號 QbitAI

Kimi K2 Thinking訓練真的只花了460萬美元?楊植麟親自帶隊,月之暗面創始團隊出面回應了。

這不是官方數據。訓練成本很難計算,因為其中很大一部分用於研究和實驗。

他們還透露訓練使用了配備Infiniband的英偉達H800,GPU數量也比巨頭的少,但充分利用了每一張卡。

但不管怎樣,Kimi K2模型憑藉自身實力和低成本,正在硅谷引發一場「用腳投票」的遷移大潮。

投資人Chamath Palihapitiya透露他的新公司將AI負載遷移到Kimi K2,因為它性能更強,價格也便宜得多。

雲端開發平台Vercel CEO也分享了內部測試結果,稱Kimi K2比閉源模型快5倍,準確率還高50%。

Claude Code用戶也在相互傳授把模型改成Kimi K2的設定方法。

特別是Kimi K2 Thinking 被爆料只花了460萬美元訓練,比年初引發轟動的DeepSeek V3(爆料約560萬美元)還要低。

先不論這個數字是否準確,總之是讓硅谷陷入一陣反思。

當免費或極低成本的開源模型能提供同等甚至更優的性能時,閉源巨頭的高估值,還合理嗎?

也有另一面的輿論是:或者該重估月之暗面了。

Kimi是如何做到的?

技術社區的分析指出,Kimi K2 Thinking巧妙地繼承並優化了現有開源成果,特別是在架構上與DeepSeek模型一脈相承。

團隊將MoE層的專家數量從DeepSeek的256個增加到384個以增強模型的知識容量,同時將每次推理激活的參數量從約370億減少到320億來降低推理成本。詞彙表從129k擴大到160k,並減少了MoE之前的密集前饋網絡塊,進一步優化計算效率。

更關鍵的是工程創新。Kimi K2使用了團隊自研的MuonClip優化器,能在訓練過程中自動穩定梯度。

得益於此優化器,Kimi K2在長達15.5萬億token的訓練過程中實現了」零訓練崩潰」,無需人為干預重啓,在資金和設備相對有限的情況下也能可靠地訓練超大規模模型。

模型還採用了量化感知訓練(QAT)方案,實現了原生INT4精度推理。這種方法在訓練階段就讓模型適應低精度環境,在大幅降低計算資源消耗、提升推理速度約2倍的同時,將性能損失降至最低。

直面硅谷開發者,月之暗麪糰隊首次公開」答疑」

在此背景下,月之暗麪糰隊在Reddit最活躍的AI社區LocalLLaMA進行了一場長達3小時的「回答一切」(Ask Me Anything)活動,吸引了近200條提問和數千條互動。

答疑的三位主力是楊植麟、周昕宇和吳育昕——月之暗面的三位聯合創始人,其中那個「4494」就是楊植麟。

核心信息總結如下:

當被問及下一代架構時,團隊解釋了最新實驗性混合注意力機制KDA(Key-Dependent Attention)的優勢,還透露有可能用在下一代K3中。

在同等預訓練和強化學習的條件下,採用NoPE MLA的KDA混合模型性能優於採用RoPE的完整MLA模型,不僅能獲得更高的基準測試分數,而且速度更快、效率更高。

歷史上,混合注意力很難擊敗完全注意力,特別是在長輸入和長輸出任務上。KDA在各方面都顯示出性能提升,包括長鏈思維的RL場景,同時保持了線性注意力的效率。相關想法很可能會在K3中採用。

有關未來開發計劃,團隊還透露:

  • 很快就能體驗到類似Claude Code的Kimi Code產品

  • 正在開發視覺語言(VL)模型,但VL數據的獲取和訓練需要時間,所以優選擇發布文本模型

  • 之前嘗試過1M上下文窗口,但當時的服務成本太高,未來會重新考慮更長的上下文窗口。

  • 承認目前K2 Thinking的思考過長、效率較低,下一版會把「簡化思考過程」寫進獎勵函數。

Q:為什麼Kimi不像其他模型那樣過度誇讚用戶?

團隊解釋這是整理數據時的刻意設計。

Q:Kimi獨特的寫作風格從何而來?

解釋說這是預訓練和後訓練共同作用的結果:預訓練編碼了相關的先驗知識,而後訓練則添加了一些品味。看到不同的RL配方如何產生不同的口味是很有趣的。

此外團隊還無保留的回答了一些結束細節問題:

最後,關於下一代K3何時到來,團隊還開了個小玩笑:

參考鏈接:

[1]https://www.reddit.com/r/LocalLLaMA/comments/1oth5pw/ama_with_moonshot_ai_the_opensource_frontier_lab/

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10