MiniMax 四处突围,终于撞上了自己的“好日子”。
昨天凌晨,MiniMax正式开源它们的第一个推理模型M1,这款模型虽然在各项基准测试中表现“相貌平平”,却拥有业界最长的上下文能力:100万token输入,8万token输出。除了高调开源M1,另一个消息正在各大AI社区传播:MiniMax正在邀请用户测试它们的通用Agent。
在错失推理模型先发优势后,这家曾被认为是AI六小龙中最稳健的公司,想在下一程赢回来。
现在,它们终于等到了一个正在急剧缩短的时间窗口——Agent爆火的2025年。
那么,MiniMax这回推出的M1以及正在内测的Agent到底实力如何?是否还能在明星AI初创公司和大厂的强敌环伺下“正面突围”?
“直面AI”(ID:faceaibang)实际上手体验了下,并深度解读了这次的技术报告,“挖出了些”背后的东西。
01
上下文 + Agent能力是新模型的核心
接下来,我们实地测试下MiniMax M1推理模型和MiniMax Agent。
先来说下M1推理模型,它给我的第一个感受就是推理链很长,这其实与最近国产开源的几个前沿大模型的表现很相似,像是前段时间的Qwen系列以及DeepSeek的最新小版本。它们透露出来的能力都是推理很强,但是推理链非常长,网友们也多次指出:极长的推理链,往往会让模型输出结果走偏。
比如,像下面这个“钢琴键盘可视化小游戏”,我输入了一段提示词:
[角色设定] 你是一名前端开发者,擅长用原生 HTML + CSS + JavaScript 创建交互式页面。
[任务目标] 在网页端实现一个“钢琴键盘可视化小游戏”,支持鼠标点击或键盘按键触发高亮,无需播放音乐。
*[核心功能]
1. 绘制 14 个白键 + 10 个黑键(C4–C5)。
2. 点击/按键时,对应琴键变为高亮色,松开后恢复。
3. 页面顶部实时显示被按下的音名(如 “C4、D#4”)。*
[键盘映射] • A–L 对应白键 • W–O 对应黑键
[技术要求] • 不使用任何框架,只用 原生 HTML/CSS/JS。 • 代码放在单个 index.html 中,可直接双击打开运行。
[样式细节] • 白键默认 #fff,黑键默认 #333。 • 高亮色统一用 #f59e0b(亮橙)。 • 页面居中,宽度 ≤ 800 px,移动端自适应。
MiniMax M1足足思考了791.2s,大部分时间都在思考键盘与字母的搭配问题,似乎在这一过程中,陷入了无尽的思考之中。
而且,我还在它的思维链里直接发现了可视化的“钢琴键盘”:
在经过大量时间的思考后,M1认为题目中的键盘映射存在矛盾,可能无法完全正确实现。不过,它仍然给出了一份完整的代码,我将它部署了一下,你可以看看效果,还是比较完整的:
除此之外,官方也给了几个案例。
比如,用MiniMax M1构建一个打字速度测试工具,它生成了一个简洁实用的网页应用,能实时追踪每分钟打字词数(WPM):
用MiniMax M1创建一个迷宫生成器和路径查找可视化工具。随机生成迷宫,并逐步可视化算法解决迷宫的过程。使用 canvas 和动画,使其视觉效果吸引人:
可以看得出来,在现在最火的Coding(代码)能力上,最新发布的MiniMax M1表现出的能力跟现在的第一阵营大模型并没有拉开差距,但这同时也意味着这个“开源”模型已经是第一梯队的了。
除了一般的代码能力之外,我还特意去测试了一下M1最大的特点:长上下文窗口。在实际体验过程中,我发现它的上下文确实“太长”了,并且展现了工具调用能力。比如,我让它翻译一下OpenAI o3和o4-mini的系统卡,这份PDF文件有33页,并且涵盖了大量图表。
M1完完整整地翻译了这个33页的PDF,并且所有的格式都尽量还原OpenAI o3和o4-mini的系统卡文件,比如大量的表格和图片。
在它呈现出的结果之中,表格部分像一般常规基础模型一样直接生成:
而一些图片部分则直接调用工具进行了精准地裁切:
往往,大家通常不会用推理模型做翻译工作,这是因为翻译任务更依赖于语言模型对上下文的理解、语法结构的把握等等。而推理模型则更擅长处理逻辑链条的构建和一些复杂判断类任务。最主要的还是,用推理模型做长上下文工作总归有些慢以及“奢侈”。
总结下,MiniMax M1给我的感觉是:结构完整、反思能力强、重视结果导向,但是在其他的实际能力水平方面,M1只能说处于中等水平,并未展现出超出预期的惊艳。
不过,这样的能力倒是很适合Agent所需要的技术架构:具备一定推理链能力、任务流程明确、响应稳定,且易于接入和组合调用。
02
MiniMax 首款通用Agent:中规中矩
接下来,我们再看看它们正在内测的通用Agent表现如何。
MiniMax Agent展现出的能力,我们大概可以分为两块:前端效果上要更好一点,项目整体的交付更加完整。
这里,我们用一个实际案例来展示,输入一段提示词:
做一个PPT类型效果的网页,介绍OpenAI的发展历程。
Agent在实际制定任务计划后,首先通过广泛的网络搜索,全面搜集关于OpenAI发展历程的各类信息:
它还会调用像是爬取网络信息的工具,针对信息质量高的网页提取核心数据:
MiniMax Agent相对于其他“传统”Agent来说有一个可以说是创新的点,就是它会利用浏览器测试自己开发的网站,像是其他Agent往往会利用浏览器视觉理解其他网站,而不会针对自己所做的成果再度审查:
最后,它呈现出的效果还是不错的:
从发展历程、关键人物、核心产品、增长数据、未来展望都完整地覆盖了,同时网页具有一定的细腻程度,我录制了一个完整版的视频:
接下来,我们看看MiniMax M1的技术报告,其中的内容并不算太过惊艳,但也有一些干货。
03
一份并不算太过惊艳的技术报告,但有干货
(1)性能
从测试数据来看,MiniMax M1的表现可以用“偏科生”来形容。在AIME 2024的奥数逻辑题、LiveCodeBench编程挑战,以及SWE-bench Verified的真实代码修改任务上,M1的成绩只能说中规中矩——既没有惊艳到让人眼前一亮,也没有差到让人失望。
“还行,但不够亮眼”。
在这些常规基准测试上的表现,再搭配上现在这个时间点,M1的表现或许可以用“稍许失望”表示。
但是,当场景切换到软件工程、长上下文处理和工具调用等更贴近实际生产力需求的复杂任务时,M1展现出了显著的优势。
比如,下表里的基准测试—— TAU-bench,其全名是(ToolAgentUser benchmark)。这是一个真实世界工具呼叫对话任务评估框架,涵盖 Airline(航空预订)和 Retail(零售)两个子域 。主要评估 AI 智能体通过多轮对话与用户互动,像是调用订票/修改/退票等 API,并依据复杂政策文档执行任务的能力 。
MiniMax M1的两个模型(40k和80k)在TAU-bench(Airline)里都获得了最高分;长上下文基准测试里,M1也站上了第一梯队:
(2)技术架构解读
在技术架构创新上,M1有两个特别值得关注的亮点:以闪电注意力机制为核心的混合架构,以及更高效的强化学习算法CISPO。
M1最亮眼的规格当属其100万token的上下文输入能力,这个数字和Google Gemini 2.5 Pro并列业界第一,是DeepSeek R1的8倍。并且,它还支持8万token的推理输出——这个数字已经超越了Gemini 2.5 Pro的6.4万,成为目前世界上输出最长的推理模型。
这种“超长记忆”能力的背后,是MiniMax独创的以闪电注意力机制为主的混合架构。
闪电注意力(Lightning Attention)由来已久。
但其实,MiniMax早已研究线性注意力架构(Linear Attention)数年。MiniMax的架构负责人钟怡然曾在下面这篇数年前的论文里,就已经开始研究线性注意力架构(Linear Attention):
早在今年1月15日发布MiniMax-01时,他们就做出了一个在业内看来相当“冒险”的决定:放弃“主流”Transformer路线,转而大笔押注线性注意力架构(Linear Attention)。这一架构在早期表现并不好,并且被认为如果经过放大,可能会失效。
线性注意力架构基础上的工程级实现——闪电注意力机制,通过分块算法提升速度、降低延迟。在处理100万长度的输入时,传统的softmax attention的延迟是lightning attention的2700倍。
在强化学习方面,MiniMax提出了CISPO算法,通过裁剪重要性采样权重而非传统的token更新来提升效率。
在AIME的实验中,他们发现,该方法的收敛速度是包括字节近期提出的 DAPO 在内的强化学习算法的两倍,明显优于DeepSeek早期采用的 GRPO。
(3)成本
得益于前面提到的两项技术创新,M1的强化学习训练过程效率惊人——整个过程仅用了512块H800芯片,训练时间只有三周,租赁成本仅为53.47万美金。这比MiniMax最初的预期少了一个数量级。在动辄千万美金训练成本的大模型时代,53万美金训练出一个推理模型,似乎有些夸张了。
我们可以对比下同样拥有完整产品系列并且玩开源的Llama4——这个在前段时间“爆红”互联网的“令人失望”的产品。早在去年,扎克伯格就透露过:他们部署两个大型训练集群来支持 LLM 研发:其中一个集群配备了 22,000 块 NVIDIA H100 GPU,另一个则配备 24,000 块 H100 。
M1的这种成本优势会在实际应用中持续发挥作用。假设,当需要生成10万token时,M1的推理算力需求仅为DeepSeek R1的25%——这意味着在同样的硬件条件下,M1可以服务更多用户,或者以更低的成本提供同样的服务。
这种算力效率上的优势,配合100万token的输入能力和8万token的输出能力,让MiniMax在长上下文应用场景中具备了独特的竞争优势。
而Agent就是一个典型场景。据“晚点LatePost”报道,MiniMax创始人闫俊杰认为 long-context(长上下文)是 Agent(智能体)的重要能力,它能增强 AI 的 “记忆”。提升单 Agent 交互质量和多 Agent 之间的通讯能力。
这也让业界认为MiniMax这会儿推出的长上下文推理模型是否是“专门为了Agent而造”?这是否意味着MiniMax将要All in Agent了,凭此继续留在“牌桌”上?
04
围战 Agent 的大趋势让 MiniMax 缓了一口气
围战 Agent 的大趋势让四处突围,在多模态领域不断做长线战斗的 MiniMax 缓了一口气,似乎看到了一丝“曙光”。
2025年被业界广泛认为是AI Agent之年。现在,2025年刚过去了一半,我们已经看到了如此多的通用Agent或者是垂类Agent产品,它们或来自大厂或来自明星AI初创企业,像是:字节的扣子空间,百度的心响,Flowith,Manus等等。
在这场竞争中,“长上下文”确实是一张重要的牌,而M1的优势也在于此。
现在 AI Agent 通常依赖于一套“感知—推理—行动”的端到端闭环能力,对模型在长上下文处理能力、模块化推理、指令响应稳定性以及轻量化部署等方面有着极高要求。而 M1 恰恰在这些核心能力上展现出强大的适配性:它不仅具备链式思维(CoT)生成能力,还能在多轮交互中保持上下文一致性,且推理效率表现属于第一梯队中等水平。
随着Agent进入应用场景,无论是单个Agent工作时产生的记忆,还是多个Agent协作所产生的context,都会对模型的长上下文窗口提出更多需求。这就像人类团队协作一样,大家必须对项目背景有共同的了解,才能高效配合。
但长上下文真的能“包打天下”吗?答案是:重要,但远非全部。
决定Agent成败的关键因素还有许多。
比如:Agent是否能够以“端到端”能力强化学习,培养“干中学”?还有就是现在最看重的工具调用和多模态能力。现实世界的任务往往需要调用各种工具,从搜索引擎到专业软件,从文字处理到图像识别。这些都成为Agent能否展现足够产品力的决定性因素。
除此之外,一个最关键也是最容易被理解的因素是:主模型。这半年来,我们往往能看到许多Agent厂商在强调一件事:让主模型坐镇,调用专家Agent。这也对模型除了长上下文之外的性能提出了更高的要求,主模型的推理能力、任务分解能力、决策判断力,直接决定了整个Agent系统的上限。
而MiniMax在最前沿基础模型上的技术积累似乎并没有这么深厚。
不过,仍值得注意的是,MiniMax是一家多模态原生模型公司。这意味着在Agent时代,他们几乎只需要解决商业化问题。因为,除了像其他厂商一样套用SOTA级别大模型的API之外,MiniMax可有太多选择了。
除了利润点和Agent产品力之外,或许我们还可以关注下“产品的稳定性”。过去两年,投资者向Agentic AI初创公司投入了超过20亿美元,而OpenAI在5月6日宣布以30亿美元收购Windsurf;之后,Anthropic就“断供Windsurf”了。据说,连 Claude 4 发布当天,Windsurf 都没拿到接入资格。这无疑对产品的影响是巨大的。
真正的胜负,将取决于谁能在长上下文、强化学习、工具调用、多模态理解、成本控制、用户体验等多个维度上实现最佳平衡。MiniMax在长上下文领域的技术优势,为其在这场竞争中提供了话语权,但最终的胜负手,还要看谁能更好地将技术转化为用户价值。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.