小米“神秘模型”,为何被错认为DeepSeek V4?

阿尔法工场研究院
Yesterday

导语:小米MiMo大模型的掌舵人罗福莉,本是DeepSeek老将。

上周,OpenRouter突然冒出两个匿名模型——Hunter Alpha和Healer Alpha。

没logo、没团队、没官方宣称,却直接杀上API调用日榜第一,全球开发者集体沸腾。连OpenClaw创始人都在社交平台X上公开打听“谁在背后”? 

所有的猜测都指向了同一个名字:DeepSeek V4。

然而今天凌晨,小米却突然官宣认领:

这两个匿名模型的真实身份,是小米 MiMo-V2系列的早期测试版。

全网瞬间集体打脸。

为什么一个手机大厂的模型,会被全世界开发者集体误认为是DeepSeek的下一代神作?

DeepSeek V4的“马甲”

小米这次的模型,的确有股熟悉的DeepSeek范儿。

  • 参数规格几乎一样

小米匿名模型露出的参数规格:万亿级参数、百万token上下文、Agent专精路线,和市面流传的DeepSeek V4传闻几乎一模一样。 

  • 能力风格太像

Hunter Alpha在代码生成、超长上下文、多步Agent任务里的表现,让人瞬间联想到DeepSeek从V2到V3的“效率至上”血统。

  • 核心人才加盟

小米MiMo大模型的掌舵人罗福莉,本身就是DeepSeek老将。

罗福莉是业内公认的“AI天才少女”,北大计算语言学硕士,曾在阿里达摩院主导多语言模型,后转战DeepSeek,成为DeepSeek-V2关键架构核心开发者。2025年底被雷军以千万年薪挖角,11月官宣加盟小米。

如今市场认识一家模型公司,不是看logo,而是看参数形态、能力风格、训练路线、核心人才的流动轨迹。 

罗福莉的加入,使得DeepSeek的基因,被小米直接复刻;匿名测试的打法,也被小米学得炉火纯青。

中国AI实验室的技术路线,已经趋同到分不清你我。

小米瞄准Agent底座

小米官宣认领后,市场焦点迅速转向了“模型到底用来干什么”。

答案很清楚:MiMo-V2系列不是通用聊天工具,而是专为Agent场景打造的底座。

丨MiMo-V2-Pro(对应Hunter Alpha)是旗舰基座。

总参数超1万亿,激活参数42B,支持100万token上下文。优化重点是长程规划与多步推理。在OpenClaw框架下,它能独立完成复杂任务。

社区实测显示,它在编程和工具调用上的表现,已接近Claude Opus 4.6水平。

丨MiMo-V2-Omni(对应Healer Alpha) 是全模态版本。

上下文262K,原生支持文本、图像、语音、视频输入与输出。它能看图、听录音、理解视频,然后直接执行操作。

例如:截图一张商品图片,它可打开电商平台完成比价、下单;输入一段会议录音加白板照片,它能自动生成结构化笔记并在文档工具中填充表格。

丨MiMo-V2-TTS 是配套的语音合成模型。

基于超过1亿小时数据训练,支持多方言、多角色、多语气切换。

三组模型结合,形成了从意图理解到执行的完整链路。

MiMo-V2官宣后,雷军迅速发文为其站台:

Mimo-V2-Pro在全球大模型综合智能排行榜Artificial Analysis上,位列全球第八。按大模型品牌来排名,排在全球第五,超过了xAI Grok。

跑分还是实战?

每当有大模型发布,业内都会习惯性地思考,这到底是靠刷榜拿分,还是真能在真实场景里干活?

目前,各大权威基准测试显示,MiMo-V2系列在逻辑推理和代码领域的成绩,位居全球第一梯队。

AIME 2025数学基准测试中,MiMo-V2 Flash得分94.1%表明,已具备了接近人类顶尖竞赛选手的能力 。

SWE-Bench测试显示,MiMo-V2-Pro在编程任务上不仅大幅领先于国内竞品,且在多项指标上与全球顶级模型并驾齐驱。

但质疑在于,传统的静态基准测试已无法衡量真实的智能水平。那么,MiMo-V2在真实的人类任务中表现如何?

在以实战著称的PinchBench和Claw-Eval榜单上,小米这组模型展现出了强大的执行力。

PinchBench榜单中,MiMo-V2-Pro的任务完结率高达85%,目前稳居全球前三,仅次于目前顶级阵营(Claude 4.6 系列、GPT-5.4)。

在Claw-Eval中,MiMo-V2的指令服从度达到了97%,表现了对复杂工具链的理解深度。

事实上,MiMo-V2也在被开发者们用脚投票,真实调用量惊人。

OpenRouter数据显示,MiMo-V2-Pro(Hunter)上线后多日占据日榜第一,大量来自开发者真实Agent工作流。

来源:OpenRouter LLM Leaderboard(2026.3.10-2026.3.16)

社区实测后也给出了积极反馈,很多人认为这套组合把可用性拉到了新高度。

但也有开发者质疑,MiMo-V2有“面向特定框架/特定评测目标强优化”的嫌疑。

小米官方与OpenClaw生态都反复强调对OpenClaw工具调用与多步任务的优化,同时公开训练细节(数据配方、算力、RL 过程)缺失,很难从第一性原理排除“对OpenClaw等少数Agent基准过拟合”的可能性。

此外,也有开发者测试后表示,在安全对齐上,MiMo-V2-Pro与MiMo-V2-Omni差异明显,前者强审查,后者更开放。这对企业合规、跨境产品一致性、安全体验提出了挑战。

小米的AI野心

无论外界对这组模型的表现是否有争议,小米的这次出手,已经足够让整个大模型圈重新评价它。

2026年,中国大模型市场已经进入落地决战阶段,真正比拼的是谁能把模型真正嵌入用户日常场景。

就在这个节点,小米把MiMo-V2系列直接推上前台。

过去三年,小米AI给外界的印象始终停留在应用层:超级小爱语音助手、澎湃OS的智能插件、手机端侧的局部优化。它更像是一个终端厂商的辅助功能,而非独立的基础模型玩家。

然而,随着MiMo-V2-Flash开源冲到全球Agent榜第二,再到这次MiMo两款模型的匿名测试,小米不再是追随者,而是开始建立自己的技术谱系。

这也意味着,小米的目标不只是证明自己做得出大模型,而是要进一步证明,这套能力可以成为整个生态的新底座。

因此,小米真正的AI战略,是要构建“人-车-家”生态里的统一智能层。

通过把MiMo系列深度嵌入小米自有的垂直链路——芯片(澎湃芯片)、操作系统(澎湃OS)、大模型、终端设备(手机、汽车、智能家居),让AI不再是App里的对话框,而是系统级的原生能力。

例如,用户在手机上说一句“帮我把今天会议纪要整理好”,MiMo-V2直接理解意图,自动调用WPS生成文档,同时把关键行动项推送到车机导航和家居日程。

汽车行驶中检测到用户疲劳,MiMo-V2结合手机传感器和车内摄像头,直接调整空调、播放指定音乐,甚至提前通知智能家居煮咖啡。

这种闭环执行,依赖的是小米独有的生态优势:超过7亿月活跃用户、超过10亿IoT设备,以及澎湃OS对硬件的完整权限控制。

其他纯模型厂商只能停留在云端API调用,但小米却能把意图直接转化为物理世界的动作。

罗福莉曾在内部多次强调:小米不追求孤立的超级模型,而是要让AI“走出对话框,接管真实生活”。

这正是小米与DeepSeek、智谱、月之暗面等纯模型玩家的根本区别。前者靠生态落地,后者靠参数和API定价。

换句话说,小米正在完成一次根本转型:从卖硬件的科技公司,变成用AI重新定义用户生活方式的生态服务商。

MiMo-V2系列只是这个战略的第一张牌。

竞争格局将如何重塑?

小米此番发力,直接把国产大模型的竞争推入新阶段。

最先感受到冲击的是价格体系。

MiMo-V2系列API定价仅为Claude Opus 4.6的五分之一:256K上下文以内,输入1美元/百万token,输出3美元;即使扩展至1M上下文,费用也仅翻倍。

这一价格,直接把此前动辄数十美元的Agent调用门槛拉到极低。

有开发者反馈,不少团队在测试MiMo Claw免费体验后,已开始将部分生产任务迁移过来,“成本骤降”成为最常见的评价。

在国内市场,小米的突然入局也让格局出现明显裂变。

阿里通义、字节豆包等此前各自占据参数或应用优势的大模型,现在必须面对一个同时拥有顶级Agent能力和10亿IoT设备生态的对手。

小米补齐了中国大模型最缺的落地闭环,把竞争焦点从“谁的参数更大”彻底转向“谁能真正跑通真实场景”。

对DeepSeek而言,压力也很直接:技术路线被继承,Agent执行场景又被小米用硬件生态提前卡位。

全球视角下,小米正成为能与Apple Intelligence形成对标格局的硬件级AI生态。

苹果目前仍以封闭端侧小模型为主,强调隐私与本地计算;

小米则通过开放低价API+全链路权限,实现云端意图理解到物理设备执行的无缝衔接。7亿月活用户和澎湃OS的系统级控制权,可能会让小米在AI普惠速度上领先一步。

匿名模型的发布,并不是一次简单的测试,而是小米技术自信的一次集中亮相。

这意味着,小米已经不满足于只做 AI 能力的承接者,而是在尝试进入模型、系统与生态协同更深的一层。

这套体系最终能否成立,还需要时间验证。

但可以确定的是,小米已经不再只是旁观这场竞赛,而是正式走进了牌桌中央。

#小米 #DeepSeek #大模型 #AI

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10