MiniMax啓動科創板IPO輔導後,新一代旗艦模型M3也正式登場。
啱啱發布的M3,把前沿Coding能力、1M超長上下文、原生多模態這三條科技樹,同時點滿。
MiniMax稱,M3是目前的開源模型當中,唯一能同時做到這三點的。
它在SWE-Bench Pro上超過了GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。
而在面向自主Agent的端到端評測Claw-Eval上,M3拿到了最高分。
為了證明三種能力確實同時在線,MiniMax團隊把一篇ICLR 2025獲獎論文丟給M3獨立復現——
論文又長又硬、圖文並茂,要看懂裏面的曲線圖、數據、公式得靠多模態;
論文、代碼、實驗日誌一次性塞進窗口得靠長上下文;
長線程甚至併發地跑完復現得靠編程和agent能力。
結果M3獨立跑了接近12小時,最終成功把論文的核心實驗全部跑通。
現在,MiniMax M3已經可以在MiniMax Code、Token Plan和API服務中體驗到。
長上下文、編程、多模態同時在線
和M系列以往的路徑相同,M3同時點滿長上下文、Coding和多模態這三條科技樹,依然是在向Coding和Agent方向重點發力。
MiniMax用幾道真題測了它的實際表現。
FP8矩陣乘(GEMM)優化是大模型推理裏優化難度最高的環節之一,資深工程團隊通常要集中投入1-2周才能在NVIDIA Hopper架構上寫出一個生產級kernel。
MiniMax把這道題丟給M3,起點只有一份任務描述、一個benchmark腳本、一個跑不起來的Triton骨架,沒有任何參考實現可以抄。
隨後約24小時,M3自己走完了從baseline到生產級優化的全部路徑,其間完成了147次benchmark提交、1959次工具調用。
並且,性能瓶頸診斷、CUDA Graph集成、persistent kernel重寫等一系列步驟中,M3在每一步都拿benchmark反饋來驗證自己。
最終經過6輪標誌性優化,Hopper FP8硬件峯值利用率從首版7.6%幹到了71.3%,實現9.4倍加速。
執行過程本身也值得關注。
其餘模型大多在前30次提交內就不再進展、主動退出了,M3的最優解出現在第145次提交,在那之前它經歷了多個性能平台期,但一直在繼續嘗試不同方向。
除了優化算子,M3還能獨立復現論文。
MiniMax把一篇ICLR 2025 Outstanding Paper Award獲獎論文扔給它,這篇論文研究的是大模型微調過程中的學習動力學。
論文本身又長又硬、圖文並茂,模型需要看懂裏面的曲線圖、數據、公式然後編寫代碼並執行。
這個任務重,M3自主運行接近12小時,產出18次commit與23張實驗圖表。
它不僅跑通了核心實驗,成功吻合了SFT階段的預測概率變化趨勢,還清晰觀測到DPO實驗重點討論的squeezing效應,並順利驗證了原論文提出的Extend緩解方法。
中途遇到跑不通的實驗,它會自己進行診斷,碰到結果對不上的地方就自己調整,整個過程始終沒有人工介入。
除此之外,M3還能給其他模型當教練。
MiniMax在PostTrainBench上讓它接手四個只完成預訓練的Base模型,任務是在12小時內自主完成數據合成、訓練、評測、迭代的全部流程,最終讓這些模型在數學推理、工具調用、科學知識推理、代碼生成等任務上具備基本能力。
這道題沒有清晰的反饋結構,也沒有標準答案,M3需要自己判斷合成什麼數據、選什麼訓練策略,並根據每輪評測結果,決定下一步怎麼調。
它先分析每個Base模型在各任務上的短板,再決定為每個方向合成哪些數據,跑完訓練拿到評測結果之後,再自己判斷哪個任務還差得遠、哪個方向的數據質量不夠、下一輪應該往哪裏加力。
如果發現某個任務的數據覆蓋不足,它會重新設計合成方案;某輪訓練效果不達預期,它會調整策略再跑一輪。
不同輪次的評測結果出來之後,它會自己對比差異、總結規律、決定下一步。
整個12小時它都在自己拿主意,沒有人告訴它該怎麼做。
它最終得分0.37,略低於Opus 4.7(0.42)和GPT-5.5(0.39),但明顯領先其餘模型。
引入全新注意力機制
要解決更復雜的Agent任務,context scaling是繞不開的挑戰。
MiniMax為此從最底層的注意力機制入手,自己做了一套新的稀疏注意力架構,叫MSA(MiniMax Sparse Attention)。
全注意力機制有個先天問題,它的計算複雜度隨上下文長度平方級增長。上下文越長,計算量爆炸得越快。
業內通常靠增加初篩階段來緩解這個問題,但精度和效率很難兼顧。
MSA的做法分兩步。
第一步是Index Attention,用輕量的索引query對KV塊做Block Max Pool,選出Top-k的高相關塊;
第二步,再對選出來的塊做完整的Sparse Attention計算。
跟DSA、MoBA等方案相比,MSA可以更精確地為KV分塊,實現更高的有效上下文覆蓋。
算子層面,MiniMax也做了專門優化,採用以KV塊為外層聚合命中query的KV outer gather Q方式,每塊只讀一次、訪存連續。
在M3的head配比下,這種模式的計算訪存比顯著優於通行方法,比開源的Flash-Sparse-Attention、FlashMoBA快4倍以上。
效果上,在1M上下文下,M3每token的計算量只有上代模型的1/20,prefilling階段提速超過9倍,decoding階段提速超過15倍,且絕大部分能力與全注意力持平。
多模態方面,M3從預訓練第一步就做圖文混合訓練,不同模態數據的語義空間從一開始就在同一套框架下融合。
MiniMax做了大量實驗,發現文本和圖像在序列中交替排列的interleaved data,對模型性能的提升比通常認為的更關鍵。
為了大規模獲取這類數據,MiniMax重構了整套數據管線,訓練數據Token規模因此可以提升到100萬億量級。
Coding能力這邊,MiniMax認為今天模型的Coding水平,越來越取決於能否用真實世界的用戶邏輯來訓練。
大多數代碼Agent的訓練和評測建立在單輪任務的假設上,但真實場景裏用戶往往在同一個session裏持續協作。
為了縮小這個差距,MiniMax構建了一套交互式用戶模擬器框架,模擬真實開發者在協作過程中的行為模式,讓模型在訓練階段就接觸到更接近生產環境的交互場景。
至於更多技術細節,MiniMax預告其技術報告和開源模型權重將在10天內更新,感興趣的話可以持續關注。