MiniMax新旗艦M3發布！自己幹了12小時復現獲獎論文，三條科技樹同時點滿

MiniMax啓動科創板IPO輔導後，新一代旗艦模型M3也正式登場。

啱啱發布的M3，把前沿Coding能力、1M超長上下文、原生多模態這三條科技樹，同時點滿。

MiniMax稱，M3是目前的開源模型當中，唯一能同時做到這三點的。

它在SWE-Bench Pro上超過了GPT-5.5和Gemini 3.1 Pro，接近Claude Opus 4.7。

而在面向自主Agent的端到端評測Claw-Eval上，M3拿到了最高分。

為了證明三種能力確實同時在線，MiniMax團隊把一篇ICLR 2025獲獎論文丟給M3獨立復現——

論文又長又硬、圖文並茂，要看懂裏面的曲線圖、數據、公式得靠多模態；
論文、代碼、實驗日誌一次性塞進窗口得靠長上下文；
長線程甚至併發地跑完復現得靠編程和agent能力。

結果M3獨立跑了接近12小時，最終成功把論文的核心實驗全部跑通。

現在，MiniMax M3已經可以在MiniMax Code、Token Plan和API服務中體驗到。

長上下文、編程、多模態同時在線

和M系列以往的路徑相同，M3同時點滿長上下文、Coding和多模態這三條科技樹，依然是在向Coding和Agent方向重點發力。

MiniMax用幾道真題測了它的實際表現。

FP8矩陣乘（GEMM）優化是大模型推理裏優化難度最高的環節之一，資深工程團隊通常要集中投入1-2周才能在NVIDIA Hopper架構上寫出一個生產級kernel。

MiniMax把這道題丟給M3，起點只有一份任務描述、一個benchmark腳本、一個跑不起來的Triton骨架，沒有任何參考實現可以抄。

隨後約24小時，M3自己走完了從baseline到生產級優化的全部路徑，其間完成了147次benchmark提交、1959次工具調用。

並且，性能瓶頸診斷、CUDA Graph集成、persistent kernel重寫等一系列步驟中，M3在每一步都拿benchmark反饋來驗證自己。

最終經過6輪標誌性優化，Hopper FP8硬件峯值利用率從首版7.6%幹到了71.3%，實現9.4倍加速。

執行過程本身也值得關注。

其餘模型大多在前30次提交內就不再進展、主動退出了，M3的最優解出現在第145次提交，在那之前它經歷了多個性能平台期，但一直在繼續嘗試不同方向。

除了優化算子，M3還能獨立復現論文。

MiniMax把一篇ICLR 2025 Outstanding Paper Award獲獎論文扔給它，這篇論文研究的是大模型微調過程中的學習動力學。

論文本身又長又硬、圖文並茂，模型需要看懂裏面的曲線圖、數據、公式然後編寫代碼並執行。

這個任務重，M3自主運行接近12小時，產出18次commit與23張實驗圖表。

它不僅跑通了核心實驗，成功吻合了SFT階段的預測概率變化趨勢，還清晰觀測到DPO實驗重點討論的squeezing效應，並順利驗證了原論文提出的Extend緩解方法。

中途遇到跑不通的實驗，它會自己進行診斷，碰到結果對不上的地方就自己調整，整個過程始終沒有人工介入。

除此之外，M3還能給其他模型當教練。

MiniMax在PostTrainBench上讓它接手四個只完成預訓練的Base模型，任務是在12小時內自主完成數據合成、訓練、評測、迭代的全部流程，最終讓這些模型在數學推理、工具調用、科學知識推理、代碼生成等任務上具備基本能力。

這道題沒有清晰的反饋結構，也沒有標準答案，M3需要自己判斷合成什麼數據、選什麼訓練策略，並根據每輪評測結果，決定下一步怎麼調。

它先分析每個Base模型在各任務上的短板，再決定為每個方向合成哪些數據，跑完訓練拿到評測結果之後，再自己判斷哪個任務還差得遠、哪個方向的數據質量不夠、下一輪應該往哪裏加力。

如果發現某個任務的數據覆蓋不足，它會重新設計合成方案；某輪訓練效果不達預期，它會調整策略再跑一輪。

不同輪次的評測結果出來之後，它會自己對比差異、總結規律、決定下一步。

整個12小時它都在自己拿主意，沒有人告訴它該怎麼做。

它最終得分0.37，略低於Opus 4.7（0.42）和GPT-5.5（0.39），但明顯領先其餘模型。

引入全新注意力機制

要解決更復雜的Agent任務，context scaling是繞不開的挑戰。

MiniMax為此從最底層的注意力機制入手，自己做了一套新的稀疏注意力架構，叫MSA（MiniMax Sparse Attention）。

全注意力機制有個先天問題，它的計算複雜度隨上下文長度平方級增長。上下文越長，計算量爆炸得越快。

業內通常靠增加初篩階段來緩解這個問題，但精度和效率很難兼顧。

MSA的做法分兩步。

第一步是Index Attention，用輕量的索引query對KV塊做Block Max Pool，選出Top-k的高相關塊；
第二步，再對選出來的塊做完整的Sparse Attention計算。

跟DSA、MoBA等方案相比，MSA可以更精確地為KV分塊，實現更高的有效上下文覆蓋。

算子層面，MiniMax也做了專門優化，採用以KV塊為外層聚合命中query的KV outer gather Q方式，每塊只讀一次、訪存連續。

在M3的head配比下，這種模式的計算訪存比顯著優於通行方法，比開源的Flash-Sparse-Attention、FlashMoBA快4倍以上。

效果上，在1M上下文下，M3每token的計算量只有上代模型的1/20，prefilling階段提速超過9倍，decoding階段提速超過15倍，且絕大部分能力與全注意力持平。

多模態方面，M3從預訓練第一步就做圖文混合訓練，不同模態數據的語義空間從一開始就在同一套框架下融合。

MiniMax做了大量實驗，發現文本和圖像在序列中交替排列的interleaved data，對模型性能的提升比通常認為的更關鍵。

為了大規模獲取這類數據，MiniMax重構了整套數據管線，訓練數據Token規模因此可以提升到100萬億量級。

Coding能力這邊，MiniMax認為今天模型的Coding水平，越來越取決於能否用真實世界的用戶邏輯來訓練。

大多數代碼Agent的訓練和評測建立在單輪任務的假設上，但真實場景裏用戶往往在同一個session裏持續協作。

為了縮小這個差距，MiniMax構建了一套交互式用戶模擬器框架，模擬真實開發者在協作過程中的行為模式，讓模型在訓練階段就接觸到更接近生產環境的交互場景。

至於更多技術細節，MiniMax預告其技術報告和開源模型權重將在10天內更新，感興趣的話可以持續關注。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

MiniMax新旗艦M3發布！自己幹了12小時復現獲獎論文，三條科技樹同時點滿

長上下文、編程、多模態同時在線

引入全新注意力機制

熱議股票