全网猜了一周 DeepSeek V4,结果是小米干的

爱范儿
Mar 19

上周,两个没有署名的匿名模型悄然上架知名 API 聚合平台 OpenRouter,代号分别是“Hunter Alpha”和“Healer Alpha”。它们没有任何宣传,调用量却开始以一种不寻常的速度持续攀升。

其中,Hunter Alpha 更是多天登顶日榜,累计调用量突破 1T tokens。社区开始议论。最主流的猜测指向 DeepSeek,认为这是 DeepSeek V4 的内测版本。

OpenClaw 创始人 Peter Steinberger 也在 X 平台发文打听,进一步点燃了社区的猜测热情。

小米官方正式宣布,Hunter Alpha 和 Healer Alpha 均为小米 MiMo 大模型的早期内测版本。谜底揭晓的同时,小米 MiMo 大模型负责人罗福莉也在 X 平台公开认领。

巧合的是,罗福莉正是 DeepSeek 的前研究员,换句话说,来自 DeepSeek 的她,在小米做了让全网以为是 DeepSeek 的模型。

划重点,小米此次一口气发布三款模型,虽各有侧重,但共同指向同一个方向:让 AI 从“会对话”进化为“能完成任务”:

MiMo-V2-Pro 是旗舰文本基座,专为高强度 Agent 工作场景而生,主打推理、规划与工具调用。

MiMo-V2-Omni 是全模态 Agent 基座,原生融合文本、视觉与音频感知,打通从理解到执行的完整链路。

MiMo-V2-TTS 是语音合成大模型,为 Agent 赋予有温度、有情感的声音表达能力,构成全栈的最后一环。

MiMo-V2-Pro:量大管饱,定价只要竞品的五分之一

MiMo-V2-Pro 的总参数量突破 1T,激活参数为 42B,较前代 MiMo-V2-Flash 扩大约 3 倍。

参数量大幅增长,但推理效率并未因此下降,这得益于其创新的混合注意力架构(Hybrid Attention)。

该架构的混合比例从前代的 5:1 进一步提升至 7:1,轻量 MTP(Multi Token Prediction)层的引入也加快了实际生成速度。

同时,MiMo-V2-Pro 支持高达 1M 的超长上下文窗口,这在处理长程 Agent 任务时具有明显的结构性优势。

在全球权威大模型综合智能排行榜 Artificial Analysis 上,MiMo-V2-Pro 目前位列全球第八,国内第二。

基准测评之外,小米更强调“实际体感”。在 Coding Agent、通用 Agent 和 Tool Use 等维度,MiMo-V2-Pro 与 Claude Sonnet 4.6 处于同一梯队。

在小米内部工程师的深度评测中,MiMo-V2-Pro 的代码工程能力已接近 Claude Opus 4.6,拥有更出色的系统设计能力与更优雅的代码风格。

Hunter Alpha 匿名内测期间,调用量最高的几类应用多为编程专用工具,这一数据本身就是对模型能力最直接的市场验证。

在 OpenClaw 框架内,MiMo-V2-Pro 还展示了前端开发能力,能够一步生成设计精致、功能完备的网页,兼顾视觉质感与实际可用性。

定价层面,MiMo-V2-Pro 的 API 价格仅为同级别竞品的 1/5。256K 上下文以内,输入每百万 tokens 定价 1 美元,输出 3 美元;1M 上下文范围内,则为输入 2 美元,输出 6 美元。

这个定价策略的信号很明确:小米希望以价格优势快速推动 MiMo-V2-Pro 在开发者生态中的渗透。

为此,小米还联合 OpenClaw、OpenCode、KiloCode、Blackbox 及 Cline 五大 Agent 框架团队,提供为期一周的限时免费接口支持,各框架的具体限免信息可关注 MiMo 官方与 MiMo 开放平台公告。

目前,MiMo-V2-Pro 已正式开放 API 服务,开发者可前往 https://platform.xiaomimimo.com 接入体验。官方模型体验页面 https://aistudio.xiaomimimo.com 同步上线了 MiMo Claw 功能,支持免费体验 MiMo-V2-Pro 的 Agent 能力。

MiMo-V2-Omni:能看、能听、还能自己砍价

如果说 MiMo-V2-Pro 是大脑,MiMo-V2-Omni 的野心则更大,它试图让这个大脑同时拥有眼睛、耳朵和手。

MiMo-V2-Omni 是小米首个在基座层面统一感知与行动的全模态模型,从底层架构开始就将文本、视觉与音频深度融合。

音频理解是 MiMo-V2-Omni 最具差异化的能力之一。它支持超过 10 小时的连续长音频理解,覆盖从环境声分类到多说话人分离的复杂场景,综合表现超越 Gemini 3 Pro。

图像理解方面,MiMo-V2-Omni 在多学科视觉推理与复杂图表分析上超越 Claude Opus 4.6,逼近 Gemini 3 Pro 等顶尖闭源模型水平。

视频理解方面,模型支持原生音视频联合输入,而非将音频和视频分开处理,在架构层面带来了真正的多模态理解优势。

在 Agent 实操场景中,MiMo-V2-Omni 展现出令人印象深刻的端到端任务完成能力。

结合 OpenClaw 框架,它可以像真人一样操控浏览器:在小红书翻阅评测内容,整理购买建议,切换到京东跨店比价,联系客服争取优惠,直到完成下单,遇到多标签页切换、实时交互要求,均能见招拆招。

还有一个更具代表性的演示:用户只需说一句“做一个介绍视频,配上科技感音效,发到 TikTok 上”,模型就能完成全流程,包括自动修复渲染中的字体报错,最终确认视频审核通过、成功上线。

在纯文本智能体任务上,MiMo-V2-Omni 同样保持了高度竞争力,在 OpenClaw 榜单 PinchBench 上的表现比肩 Gemini 3 Pro。

Healer Alpha 匿名内测期间,模型在 PinchBench 上拿下均分第一,社区用户好评与基准测评结果形成了难得的双向印证。

办公场景方面,MiMo-V2-Omni 已与金山办公展开合作,接入 WPS 灵犀,支持直接生成高质量的 Word 文档、结构化 Excel、排版规范的 PDF 与完整 PPT。MiMo Studio 的 Claw 模块也已全面打通金山 WebOffice 生态,原生支持 Word、Excel、PPT、PDF 四大主流格式,覆盖超 95% 的日常文档类型。

WPS 灵犀体验地址:lingxi.wps.cn

MiMo-V2-Omni 已开放 API,支持 256K 上下文长度,输入定价每百万 tokens 0.4 美元,输出 2 美元,同样可在 https://platform.xiaomimimo.com 接入。

MiMo-V2-TTS:会打哈欠、会醉酒、还能唱歌

一个完整的 Agent,不应该只会思考和行动,它还需要开口说话。MiMo-V2-TTS 正是为了填补这个缺口。

MiMo-V2-TTS 基于小米自研 Audio Tokenizer 和多码本语音文本联合建模架构,经过上亿小时语音数据的大规模预训练。

“上亿小时”这个数据量级,意味着模型得以覆盖极为丰富的说话风格、口音与场景,这是泛化能力的基础。

多维度强化学习后训练阶段,模型围绕韵律自然度、音质稳定性、音色克隆质量与场景语气适配等多个维度持续优化。

得益于多层码本建模架构,强化学习阶段可以直接利用语音相关奖励信号对模型进行优化,而非依赖间接的文本侧反馈,这让多维奖励信号能够更有效地作用于生成过程。

MiMo-V2-TTS 支持从整体基调定调到句内局部情绪的多粒度控制,能在同一句话内完成语气转折与情感递变,这在同类产品中并不多见。

模型能够智能识别标点符号、语气词、强调标记等格式信号,并将其自动转化为自然的语音表达,全程无需用户手动标注。

方言支持涵盖东北话、四川话、河南话、粤语、台湾腔等,同时具备角色扮演式风格演绎与高质量歌声合成能力,让同一个模型既能说、能演、也能唱。

官方表示,未来 MiMo-V2-TTS 将与 MiMo-V2-Omni 深度融合,让 Agent 不仅能看懂世界、理解世界,更能用富有表现力的声音去讲述这个世界。

AI,才是真正打通人车家全生态的那根线

三款模型集中发布,时间节点和产品组合都不是偶然。罗福莉在声明中坦言,从聊天范式到 Agent 范式的转变发生得太快,“连我们自己都难以置信”。

但小米 MiMo 团队其实早有布局。罗福莉披露,1T 基础模型在数月前就已开始训练,最初目标是提升长上下文推理效率。混合注意力架构、1M 超长上下文窗口、MTP 低延迟推理,这些架构决策并非追随潮流,而是在需要之前就构建好的结构性优势。

推动团队加速转向 Agent 方向,源于一个关键时刻。罗福莉第一次体验到复杂 Agent 框架时受到强烈冲击,随即对团队下达强硬指令:MiMo 团队中,明天对话次数少于 100 次的成员可以辞职。

这个有些极端的要求背后,是她对 Agent 范式的坚定判断。结果是,团队的想象力被彻底激发,研究速度随之大幅提升。

这种研发节奏,叠加上小米本就拥有的生态基础,让这次发布的意义超出了单纯的模型竞赛。

小米集团长期推进“人车家全生态”战略,通过澎湃 OS 将手机、汽车(SU7 系列)与智能家居设备全面打通。这套生态的物理层面早已互联,但此前缺少一个真正意义上能跨设备理解意图、自主规划并完成任务的智能中枢。

现在,MiMo-V2-Pro 负责推理规划,MiMo-V2-Omni 负责多模态感知与执行,MiMo-V2-TTS 负责语音表达,三者叠加,构成了驱动整个生态运转的完整 AI 能力栈。

miclaw(小米手机端 AI 智能体)已接入 MiMo 大模型,具备系统级执行能力与“人车家全生态”的深度集成,是这套能力栈落地的第一个具体形态。WPS 灵犀、小米浏览器相继接入,也在说明同一件事:MiMo 不只是一个对话产品,而是正在被嵌入进各类应用场景的基础能力层。

多年来,各大科技公司都在描述“AI 将打通一切”的愿景,而带着 Agent 基因的 MiMo-V2 系列模型和深谙生态打法的小米,显然已经做好了准备。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10