MiniMax新旗舰M3发布!自己干了12小时复现获奖论文,三条科技树同时点满

量子位
Jun 01

MiniMax启动科创板IPO辅导后,新一代旗舰模型M3也正式登场。

刚刚发布的M3,把前沿Coding能力、1M超长上下文、原生多模态这三条科技树,同时点满。

MiniMax称,M3是目前的开源模型当中,唯一能同时做到这三点的。

它在SWE-Bench Pro上超过了GPT-5.5和Gemini 3.1 Pro,接近Claude Opus 4.7。

而在面向自主Agent的端到端评测Claw-Eval上,M3拿到了最高分。

为了证明三种能力确实同时在线,MiniMax团队把一篇ICLR 2025获奖论文丢给M3独立复现——

  • 论文又长又硬、图文并茂,要看懂里面的曲线图、数据、公式得靠多模态;

  • 论文、代码、实验日志一次性塞进窗口得靠长上下文;

  • 长线程甚至并发地跑完复现得靠编程和agent能力。

结果M3独立跑了接近12小时,最终成功把论文的核心实验全部跑通。

现在,MiniMax M3已经可以在MiniMax Code、Token Plan和API服务中体验到。

长上下文、编程、多模态同时在线

和M系列以往的路径相同,M3同时点满长上下文、Coding和多模态这三条科技树,依然是在向Coding和Agent方向重点发力。

MiniMax用几道真题测了它的实际表现。

FP8矩阵乘(GEMM)优化是大模型推理里优化难度最高的环节之一,资深工程团队通常要集中投入1-2周才能在NVIDIA Hopper架构上写出一个生产级kernel。

MiniMax把这道题丢给M3,起点只有一份任务描述、一个benchmark脚本、一个跑不起来的Triton骨架,没有任何参考实现可以抄。

随后约24小时,M3自己走完了从baseline到生产级优化的全部路径,其间完成了147次benchmark提交、1959次工具调用。

并且,性能瓶颈诊断、CUDA Graph集成、persistent kernel重写等一系列步骤中,M3在每一步都拿benchmark反馈来验证自己。

最终经过6轮标志性优化,Hopper FP8硬件峰值利用率从首版7.6%干到了71.3%,实现9.4倍加速。

执行过程本身也值得关注。

其余模型大多在前30次提交内就不再进展、主动退出了,M3的最优解出现在第145次提交,在那之前它经历了多个性能平台期,但一直在继续尝试不同方向。

除了优化算子,M3还能独立复现论文。

MiniMax把一篇ICLR 2025 Outstanding Paper Award获奖论文扔给它,这篇论文研究的是大模型微调过程中的学习动力学。

论文本身又长又硬、图文并茂,模型需要看懂里面的曲线图、数据、公式然后编写代码并执行。

这个任务重,M3自主运行接近12小时,产出18次commit与23张实验图表。

它不仅跑通了核心实验,成功吻合了SFT阶段的预测概率变化趋势,还清晰观测到DPO实验重点讨论的squeezing效应,并顺利验证了原论文提出的Extend缓解方法。

中途遇到跑不通的实验,它会自己进行诊断,碰到结果对不上的地方就自己调整,整个过程始终没有人工介入。

除此之外,M3还能给其他模型当教练。

MiniMax在PostTrainBench上让它接手四个只完成预训练的Base模型,任务是在12小时内自主完成数据合成、训练、评测、迭代的全部流程,最终让这些模型在数学推理、工具调用、科学知识推理、代码生成等任务上具备基本能力。

这道题没有清晰的反馈结构,也没有标准答案,M3需要自己判断合成什么数据、选什么训练策略,并根据每轮评测结果,决定下一步怎么调。

它先分析每个Base模型在各任务上的短板,再决定为每个方向合成哪些数据,跑完训练拿到评测结果之后,再自己判断哪个任务还差得远、哪个方向的数据质量不够、下一轮应该往哪里加力。

如果发现某个任务的数据覆盖不足,它会重新设计合成方案;某轮训练效果不达预期,它会调整策略再跑一轮。

不同轮次的评测结果出来之后,它会自己对比差异、总结规律、决定下一步。

整个12小时它都在自己拿主意,没有人告诉它该怎么做。

它最终得分0.37,略低于Opus 4.7(0.42)和GPT-5.5(0.39),但明显领先其余模型。

引入全新注意力机制

要解决更复杂的Agent任务,context scaling是绕不开的挑战。

MiniMax为此从最底层的注意力机制入手,自己做了一套新的稀疏注意力架构,叫MSA(MiniMax Sparse Attention)。

全注意力机制有个先天问题,它的计算复杂度随上下文长度平方级增长。上下文越长,计算量爆炸得越快。

业内通常靠增加初筛阶段来缓解这个问题,但精度和效率很难兼顾。

MSA的做法分两步。

  • 第一步是Index Attention,用轻量的索引query对KV块做Block Max Pool,选出Top-k的高相关块;

  • 第二步,再对选出来的块做完整的Sparse Attention计算。

跟DSA、MoBA等方案相比,MSA可以更精确地为KV分块,实现更高的有效上下文覆盖。

算子层面,MiniMax也做了专门优化,采用以KV块为外层聚合命中query的KV outer gather Q方式,每块只读一次、访存连续。

在M3的head配比下,这种模式的计算访存比显著优于通行方法,比开源的Flash-Sparse-Attention、FlashMoBA快4倍以上。

效果上,在1M上下文下,M3每token的计算量只有上代模型的1/20,prefilling阶段提速超过9倍,decoding阶段提速超过15倍,且绝大部分能力与全注意力持平。

多模态方面,M3从预训练第一步就做图文混合训练,不同模态数据的语义空间从一开始就在同一套框架下融合。

MiniMax做了大量实验,发现文本和图像在序列中交替排列的interleaved data,对模型性能的提升比通常认为的更关键。

为了大规模获取这类数据,MiniMax重构了整套数据管线,训练数据Token规模因此可以提升到100万亿量级。

Coding能力这边,MiniMax认为今天模型的Coding水平,越来越取决于能否用真实世界的用户逻辑来训练。

大多数代码Agent的训练和评测建立在单轮任务的假设上,但真实场景里用户往往在同一个session里持续协作。

为了缩小这个差距,MiniMax构建了一套交互式用户模拟器框架,模拟真实开发者在协作过程中的行为模式,让模型在训练阶段就接触到更接近生产环境的交互场景。

至于更多技术细节,MiniMax预告其技术报告和开源模型权重将在10天内更新,感兴趣的话可以持续关注。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10