实测MiniMax M2.7 :上能拆英伟达,下能演我爸妈

字母榜
Yesterday

总觉得MiniMax才发布M2.5,如今M2.7就上线了。查了一下,真的只隔了一个月(要知道,中间还隔了一个春节)。

MiniMax在官方微信公众号文章中表示:“MiniMax M2.7是我们第一个模型深度参与迭代自己的模型。”

这几年,“AI自我进化”几乎已经从一个略带科幻感的说法,变成了行业里默认成立的方向。

谷歌前CEO埃里克·施密特(Eric Schmidt)更是总结,目前已经形成了一个“硅谷共识”:随着人工智能推理能力和记忆系统的发展,它将重塑人类的运作方式。最终我们将达到所谓的递归式自我改进——届时,系统将以人类无法理解的速度进行学习。

目前,这件事已经被拆解成更具体的工程路径:用模型生成数据、用模型做评测,甚至让模型参与到代码修改和实验流程里。

模型被放进了一个可以不断试错、不断反馈的循环系统里。在这个系统中,模型既是执行者,也是部分决策者,而人更多退到设定目标和边界的位置。

M2.7这次强调的Agent Harness,也是把原本需要多人协作完成的一整套研发流程,尽可能压缩进一个可以持续运行的循环里,让模型去承担其中越来越多的环节。

MiniMax亮出的Benchmark成绩也相当亮眼:

这些benchmark对应不同的能力维度:SWE Bench和VIBE-Pro更接近真实的软件工程任务,而Toolathon和MM-ClawBench则强调模型在复杂流程中的执行能力;相比之下,MLE-Bench等测试则更偏向算法与研究能力。

从结果来看,M2.7在工程执行类任务中已经进入第一梯队,这一点在几个关键指标上体现得比较明显。

比如在SWE Bench Pro上,它的表现已经接近甚至超过部分一线模型,这类测试本质上是在真实代码库中定位问题并完成修复,更接近“线上排障”的场景;

而在VIBE-Pro这种端到端项目任务中,M2.7同样处在第一梯队,这意味着它不只是会补代码,而是具备从需求到交付完整产出的能力。

另一个比较值得注意的是MM-ClawBench这一类Agent测试。这里考查的不是单步能力,而是模型在长流程中的稳定执行能力,能不能在多步骤任务中持续调用工具、保持上下文、最终把事情做完。

M2.7在这一项上已经接近头部模型,说明它在“能不能把活干完”这件事上,确实已经跨过了一道门槛。

但如果切换到更偏研究和复杂推理的任务,比如MLE-Bench这一类测试,M2.7仍有进步空间。这类任务更接近算法工程或科研场景,要求模型具备更强的抽象能力和系统性建模能力,这一部分目前仍然是头部模型的优势区间。

好了,硬核的信息放在一边,拿到MiniMax M2.7内测API的那一刻,我们第一反应是:“能用它整点什么活?”

把它丢进一个真实的场景里,看它能不能满足我的需求,这最直观,也最接地气。

所以我们给M2.7设计了四场“考试”,难度从低到高,场景从荒诞到严肃:先让它同时扮演我爸妈和弟弟在微信群里聊天,再搭一个Agent Harness框架让它自主编程(做一个霓虹灯数字时钟热热身,再从零写一个贪吃蛇游戏),最后把英伟达的年报甩给它,让它像分析师一样输出研究报告、交互式仪表盘和演示文稿。

玩了一下午,只想说:M2.7,你有点东西。

01

让AI同时扮演我全家人

我们做的第一个测试,灵感来源于每个中国人手机里都有的那个东西——家族微信群。

你知道的,就是那种群名叫“相亲相爱一家人”的群,里面永远有人在转发养生文章,有人在发语音消息,有人在催你结婚,还有人在打游戏不回消息。

这个场景之所以适合测试AI,是因为它对“角色一致性”的要求极高。

群里每个人的说话方式、关注点,甚至打字习惯都完全不同,而且他们之间还会互相接话、抬杠、拌嘴。

我们用M2.7搭了一个高仿微信界面的网页应用,连手机外壳、状态栏、绿色气泡都做了出来,力求还原度拉满。一开始我想了很多人设,比如前文提到的爷爷奶奶等。

但是最后我敲定了一家四口,他们分别是:

老李(爸爸),55岁国企退休干部,性格暴躁但刀子嘴豆腐心,钓鱼狂热爱好者,最恨吃蔬菜尤其是西兰花,说话爱引用名人名言,动不动就“我当年……”

妈妈(王秀英),52岁社区居委会大妈,超级唠叨但满满都是爱,养生达人兼厨艺高手,打字疯狂用 emoji,喜欢用【】强调重点,三句话之内必催女儿找对象

李小龙(弟弟),24岁,大学毕业两年了还没找到正经工作,整天在家打原神和王者荣耀,嘴贫爱怼人,满嘴“yyds”“绝绝子”,最怕爸爸说教,一被骂就装可怜或者转移话题,经常找姐姐借钱但从不还。

页面如下:

在我并未详细要求界面具体呈现的情况下,模型返回的设计相当让人满意,于是我开始尝试发送第一句话。

发送失败?显示的是调用API失败。于是我让M2.7给我检查一下问题所在。

M2.7很快就发现了BUG,在修复后终于可以对话了,但是……

设定上作为我的父亲,他却不认识我,很显然,这是一个人物设计上的BUG。于是我又让M2.7重新编排了一下角色身份,“我”被设定为家中的长女。

随后,一切正常,这个模拟器终于可以运行了。

虽然没有一上来就梦幻开局,但是Bug的发现和修复都非常丝滑。

M2.7的角色扮演能力很强。但我想强调的是,多角色群聊的难度远不止“给每个角色设定不同的语气”这么简单。

通过报错的那张图可以看到,对于不同角色,M2.7会分别调用模型,而不是说一次生成所有的对话。

它要求模型同时维持多个角色的人格状态、理解角色之间的关系(父女、母女、兄妹、夫妻),并且让这些关系在对话中自然地碰撞出火花。

一家四口,三个AI角色,每个人都有自己的小心思和说话习惯,还要让他们能和我互动起来。

M2.7做到了,而且做得相当自然。

02

一句话,从零造一个霓虹灯时钟

第二场开始,我决定上一点强度。

为了测试M2.7的Agent能力,我专门搭了一个Agent Harness测试框架。界面长得像一个深色主题的IDE:左边是 agent的思考轨迹面板,实时显示它每一步在想什么、打算做什么。

右边分成三块——任务配置区、虚拟文件系统(显示它创建了哪些文件)和实时预览窗口(直接渲染它写出来的 HTML)。

这个框架给M2.7提供了五个工具:write_file(创建/写入文件)、read_file(读取文件)、list_files(列出目录)、execute_js(在沙盒里跑 JavaScript)和 finish(宣布任务完成)。

除此之外,什么都没有。相当于把一个程序员扔进一间空屋子,只给他一台电脑和一个需求。

第一个任务,我让M2.7做一个霓虹灯风格的数字时钟。M2.7需要理解需求、规划方案、写代码、自己检查、最后交付。

点击“启动 Agent”之后,M2.7的ReAct循环开始转了。最后在第5轮的时候,M2.7执行完了命令,实际上第4轮就行了,当时我这里出现了一些网络波动,导致M2.7调用工具失败。

说实话,这个结果本身并不让我们特别惊讶。

一个数字时钟对于2026年的大模型来说确实不算什么。

真正让人感到惊喜的,是整个开发过程非常流畅。

从理解需求到规划方案到写代码到自检到交付,整个Agent工作流跑得行云流水,没有一步多余的操作。这说明M2.7对ReAct框架的适配相当成熟,它知道什么时候该想、什么时候该动手、什么时候该收工。

好,热身结束。接下来,继续上难度。

03

让AI自己写一个贪吃蛇游戏

时钟毕竟太简单了。没有交互逻辑,没有状态管理,没有边界条件。

我需要一个真正能考验Agent自主推理和调试能力的任务,比如贪吃蛇。

这回的需求复杂度完全不在一个量级:Canvas绘制、键盘事件监听、蛇的移动逻辑、食物随机生成、碰撞检测(撞墙和撞自己)、计分系统、游戏结束判定、重新开始功能。

同时我还要求M2.7用Word记录下来自己的开发过程。

结果如下:

在第1轮里,M2.7没有着急写代码,它是先创建了一个规划。“我要开发什么什么任务”,“这个任务需要用到什么工具”等等。

第2轮,进入正题。M2.7会创建一个完整的HTML文件,包含所有功能,包括画布渲染、键盘控制、随机食物生成、计分、碰撞检测以及开始 / 重新开始功能。

第3轮,检查文件有没有被正确创建。

第4轮,检查语法,并且检查游戏的完整性。

第5轮,检查所有任务是否已经完成。

整个任务只需要5轮,共消耗25882个token。

不过也要说说不足。

整个过程并不是一帆风顺的——Agent 在早期的几轮迭代中,JSON 格式的工具调用偶尔会出错,导致框架解析失败,返回一个红色的错误提示。

M2.7 看到错误后能自我纠正,下一轮就输出了正确格式的 JSON,但这种“先犯错再改”的模式在需要长时间自主运行的 Agent 场景中是一个隐患——如果连续几轮都格式错误,可能会耗尽最大轮次限制而任务失败。

但总的来说,从时钟的“一次过”到贪吃蛇的“写→查→修→再验证”,这两个任务放在一起看,恰好展现了 M2.7 作为 Agent 的两面:面对简单任务时的高效利落,和面对复杂任务时的自主调试能力。

这也正是 M2.7 官方最强调的核心能力——Agent Harness 能力,不仅能在给定的工具框架中完成任务,还能主动迭代和自我纠错。

04

第四场:2159 亿美元的投行级财报分析

前面三个测试,一个考“说”,两个考“做”。

最后一个测试,我们想换个方向。

现在有很多金融行业的人也在使用Claude Opus这样的大模型,原因很简单,它们能把复杂的数据制作成直观的图表形式。

我把英伟达FY2026的完整财报数据甩给了M2.7。

然后我给了它一个任务:基于这些数据,生成三个专业交付物。

第一个是深度研究报告,要求投行风格,包含财务全景、五大业务板块分析、FY2027 预测模型、风险评估和估值分析。

第二个是交互式财务仪表盘,要求是蓝绿色风格的深色主题,包含图表、可调动的滑块,以及五个功能标签页。

第三个是12页演示文稿,要求投行风格,支持键盘翻页,包含数据可视化图表。

当然,这里必须诚实地说一句,这个测试的“含金量”需要打个折扣。因为财报数据是我预先搜集好喂给它的,而不是让它自己去搜索和整理的。

M2.7在这个任务中,尽职扮演了一个“拿到所有原材料后进行加工和呈现”的分析师,如果我们让它自己搜集数据(这个对现在的模型来说并不难),那它完全可以扮演一个“从零开始做调研”的研究员。

但即便如此,它对复杂金融数据的理解能力、对多种输出格式的驾驭能力,以及生成专业级可视化内容的能力,都给我们留下了深刻印象。

这个测试直接对应了M2.7官方宣传的复杂Office自动化能力——“支持复杂 Excel/Word/PPT 办公任务及多轮编辑”。从实测来看,在金融分析这个场景上,M2.7 确实能输出接近专业水准的内容。

写在最后:

还有一点特别想分享,MiniMax也在做更多有趣的尝试,这一点也令人惊喜。

比如,MiniMax这次官宣的时候就提到,他们构建了一个 Agent 交互系统 OpenRoom(openroom.ai),它将 AI 互动置入一个万物皆可互动的 Web GUI 空间。有意思的是,原型项目已开源,这里面的代码大部分也是 AI 写的。

在这里,对话即驱动,实时产生视觉反馈与场景交互,角色可以主动地与环境交互。MiniMax希望能够随着模型 Agentic 能力的提升和社区的共建持续进化,探索出更多人与 Agent 之间全新的交互方式。

这次测下来,我最大的感受其实不是“它又变强了”,而是你开始能明显感觉到,一个模型不再只是等你提问的工具,而是可以被放进一个系统里持续运转的搭档。

我们评测挑选的场景是任何一个普通用户都可以上手用到的,从群聊模拟,到写代码,再到做分析报告,这些任务背后其实是同一件事:模型开始参与到一个完整流程里,而不是只负责某一个瞬间的输出。

当然,这一步还远远没有到终点。你依然能看到它在复杂推理、长流程稳定性上的边界,也能看到一些细节上的不稳定,比如工具调用格式错误、需要多轮修正才能收敛。这些问题在“单次对话”里可能不明显,但放进Agent这种长时间运行的框架里会被放大。

但有一点是比较直观的:当模型开始能在一个任务里自己往前推进、自己发现问题、再自己修正的时候,整个使用体验就变了。模型离“你问一句、它答一句”的形态越来越远,开始和你一起把一件事做完。

你的下一个生活、工作搭子,何必是人类?

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10