楊植麟回覆：Kimi K2訓練用的H800！但「只花了460萬美元」嘛…

夢晨發自凹非寺

量子位 | 公衆號 QbitAI

Kimi K2 Thinking訓練真的只花了460萬美元？楊植麟親自帶隊，月之暗面創始團隊出面回應了。

這不是官方數據。訓練成本很難計算，因為其中很大一部分用於研究和實驗。

他們還透露訓練使用了配備Infiniband的英偉達H800，GPU數量也比巨頭的少，但充分利用了每一張卡。

但不管怎樣，Kimi K2模型憑藉自身實力和低成本，正在硅谷引發一場「用腳投票」的遷移大潮。

投資人Chamath Palihapitiya透露他的新公司將AI負載遷移到Kimi K2，因為它性能更強，價格也便宜得多。

雲端開發平台Vercel CEO也分享了內部測試結果，稱Kimi K2比閉源模型快5倍，準確率還高50%。

Claude Code用戶也在相互傳授把模型改成Kimi K2的設定方法。

特別是Kimi K2 Thinking 被爆料只花了460萬美元訓練，比年初引發轟動的DeepSeek V3（爆料約560萬美元）還要低。

先不論這個數字是否準確，總之是讓硅谷陷入一陣反思。

當免費或極低成本的開源模型能提供同等甚至更優的性能時，閉源巨頭的高估值，還合理嗎？

也有另一面的輿論是：或者該重估月之暗面了。

Kimi是如何做到的？

技術社區的分析指出，Kimi K2 Thinking巧妙地繼承並優化了現有開源成果，特別是在架構上與DeepSeek模型一脈相承。

團隊將MoE層的專家數量從DeepSeek的256個增加到384個以增強模型的知識容量，同時將每次推理激活的參數量從約370億減少到320億來降低推理成本。詞彙表從129k擴大到160k，並減少了MoE之前的密集前饋網絡塊，進一步優化計算效率。

更關鍵的是工程創新。Kimi K2使用了團隊自研的MuonClip優化器，能在訓練過程中自動穩定梯度。

得益於此優化器，Kimi K2在長達15.5萬億token的訓練過程中實現了」零訓練崩潰」，無需人為干預重啓，在資金和設備相對有限的情況下也能可靠地訓練超大規模模型。

模型還採用了量化感知訓練（QAT）方案，實現了原生INT4精度推理。這種方法在訓練階段就讓模型適應低精度環境，在大幅降低計算資源消耗、提升推理速度約2倍的同時，將性能損失降至最低。

直面硅谷開發者，月之暗麪糰隊首次公開」答疑」

在此背景下，月之暗麪糰隊在Reddit最活躍的AI社區LocalLLaMA進行了一場長達3小時的「回答一切」（Ask Me Anything）活動，吸引了近200條提問和數千條互動。

答疑的三位主力是楊植麟、周昕宇和吳育昕——月之暗面的三位聯合創始人，其中那個「4494」就是楊植麟。

核心信息總結如下：

當被問及下一代架構時，團隊解釋了最新實驗性混合注意力機制KDA（Key-Dependent Attention）的優勢，還透露有可能用在下一代K3中。

在同等預訓練和強化學習的條件下，採用NoPE MLA的KDA混合模型性能優於採用RoPE的完整MLA模型，不僅能獲得更高的基準測試分數，而且速度更快、效率更高。

歷史上，混合注意力很難擊敗完全注意力，特別是在長輸入和長輸出任務上。KDA在各方面都顯示出性能提升，包括長鏈思維的RL場景，同時保持了線性注意力的效率。相關想法很可能會在K3中採用。

有關未來開發計劃，團隊還透露：

很快就能體驗到類似Claude Code的Kimi Code產品
正在開發視覺語言（VL）模型，但VL數據的獲取和訓練需要時間，所以優選擇發布文本模型
之前嘗試過1M上下文窗口，但當時的服務成本太高，未來會重新考慮更長的上下文窗口。
承認目前K2 Thinking的思考過長、效率較低，下一版會把「簡化思考過程」寫進獎勵函數。

Q：為什麼Kimi不像其他模型那樣過度誇讚用戶？

團隊解釋這是整理數據時的刻意設計。

Q：Kimi獨特的寫作風格從何而來？

解釋說這是預訓練和後訓練共同作用的結果：預訓練編碼了相關的先驗知識，而後訓練則添加了一些品味。看到不同的RL配方如何產生不同的口味是很有趣的。

此外團隊還無保留的回答了一些結束細節問題：

最後，關於下一代K3何時到來，團隊還開了個小玩笑：

參考鏈接：

[1]https://www.reddit.com/r/LocalLLaMA/comments/1oth5pw/ama_with_moonshot_ai_the_opensource_frontier_lab/

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

楊植麟回覆：Kimi K2訓練用的H800！但「只花了460萬美元」嘛…

熱議股票