在相同強化學習(RL)訓練數據條件下,MiMo-7B在數學和代碼領域展現出的強化學習潛力明顯領先於業界廣泛使用的其他模型,包括DeepSeek-R1-Distill-7B和Qwen2.5-32B等知名強化學習起步模型。
AI競賽激烈,小米也加入戰局!
4月30日,小米首個推理大模型開源!概念股強勢上揚,金山雲飆升逾14%,小米集團-W、金山軟件漲逾4%;金山雲美股夜盤大漲逾12%
小米推出專注推理能力的開源大模型MiMo,僅用7B參數規模在數學推理和代碼競賽測評中超越OpenAI的閉源模型o1-mini以及阿里32B規模的QwQ。
據小米介紹,Xiaomi MiMo誕生之初探索的核心問題就是激發模型推理潛能,這款模型聯動預訓練到後訓練,全面提升推理能力。
國內外AI競爭日趨白熱化,本週阿里前腳發佈Qwen 3,馬斯克後腳就官宣Grok 3.5。而據此前媒體報道,小米正在建設萬卡GPU集羣,並引入頂尖AI人才,顯示出對大模型領域的全面投入。
Xiaomi MiMo這款模型最引人注目之處在於,在數學推理(AIME 24-25)和 代碼競賽(LiveCodeBench v5)公開測評集上,MiMo 僅用 7B 的參數規模,超越了 OpenAI 的閉源推理模型 o1-mini 和阿里 Qwen 更大規模的開源推理模型 QwQ-32B-Preview。
更值得注意的是,在相同強化學習$(RL)$訓練數據條件下,MiMo-7B在數學和代碼領域展現出的強化學習潛力明顯領先於業界廣泛使用的其他模型,包括DeepSeek-R1-Distill-7B和Qwen2.5-32B等知名強化學習起步模型。
據小米介紹,MiMo模型的成功並非偶然,而是來自於預訓練和後訓練兩個階段的多層面創新。
在預訓練階段,小米團隊着重挖掘富含推理模式的語料,併合成了約200B tokens的推理數據。訓練過程採用三階段策略,逐步提升訓練難度,累計訓練了25T tokens,這一訓練量在同等規模模型中處於領先水平。
後訓練階段的創新更爲關鍵,小米團隊提出了"Test Difficulty Driven Reward"機制,有效解決了困難算法問題中獎勵稀疏的問題。同時引入"Easy Data Re-Sampling"策略,顯著提升了強化學習訓練的穩定性。在框架層面,他們設計了"Seamless Rollout"系統,使得強化學習訓練速度提升2.29倍,驗證速度提升1.96倍。
據界面新聞報道,小米正在搭建自己的GPU萬卡級集羣,將對AI大模型進行大力投入。一名知情人士透露,該計劃已經實施數月之久,小米創始人雷軍親自參與領導。該人士強調:"在AI硬件這件事情上,最核心的是手機而不是眼鏡,小米在這個領域不'all in'是不可能的。"
小米的AI人才佈局也在加速。12月20日,第一財經報道稱DeepSeek開源大模型DeepSeek-V2的關鍵開發者之一羅福莉將加入小米,或供職於小米AI實驗室,領導小米大模型團隊。羅福莉是MLA(Multi-head Latent Attention)技術的核心開發者之一,該技術在降低大模型使用成本上發揮了關鍵作用。
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。