DeepSeek V4发布前,罗福莉亮剑!小米最强大模型MiMo-V2.5深夜突袭

智东西
Apr 23

作者 | 程茜

编辑 | 李水青

智东西4月23日报道,刚刚,小米MiMo大模型一口气官宣4款新模型:旗舰推理模型MiMo-V2.5、全模态Agent模型V2.5-Pro开启公测、即将开源;V2.5-TTS Series、V2.5-ASR即将推出。

小米MiMo大模型负责人正是DeepSeek核心成员、被业内称为“天才少女”的罗福莉,这距离上次MiMo-V2系列重磅三连更仅36天。与上一代模型类似,MiMo-V2.5全系列同样是为智能体场景打造,MiMo-V2.5-Pro专为长难Agent任务打造,MiMo-V2.5可覆盖绝大多数通用Agent场景。

小米还贴心为用户提供了官方使用指南:MiMo-V2.5支持原生全模态Agent能力,涵盖图像、音频与视频,相比Pro版模型平均推理速度更快,更适应对时延敏感的任务。

除性能外,此次小米MiMo新模型还有一大升级点是更高的Token效率。根据官方信息,在拿到智能体基准榜单ClawEval相同分数的情况下:

MiMo-V2.5-Pro相比Kimi本周发布的开源旗舰多模态智能体模型Kimi K2.6节省了42% Token;MiMo-V2.5相比Meta本月初发布的闭源多模态推理模型Muse Spark节省了50% Token

此外,小米此次还全面升级了模型订阅计划Token Plan:取消4倍的Credits计费方式、计费不区分256k和1M上下文、夜间享有专属优惠速率、新增自动续费模式。值得一提的是,其Token Plan计划刚发布时,就有不少用户吐槽价格太贵,便宜的套餐Token不够用。

智东西体验了MiMo-V2.5-Pro,让其“制作一个3D横版格斗游戏”,MiMo-V2.5-Pro在几分钟内、写了1123行代码,就生成了“龙虎格斗游戏”。该游戏界面的血条、双方角色名、倒计时、对战提示清晰,还包含命中火花、格挡碎片、镜头震动+命中停顿等反馈系统,具备一定可玩性,但人物角色造型简单,除颜色和帽子几乎没差异。

MiMo Studio主页

有意思的是,今年3月,小米MiMo-V2-Pro曾以匿名模型Hunter Alpha的身份现身OpenRouter平台,一度被开发者误认为是即将发布的DeepSeek V4。如今小米新一代MiMo-V2.5推出,又正值DeepSeek V4被传出将于本周发布。

Xiaomi MiMo开放平台:https://platform.xiaomimimo.com

官方公布的体验地址Xiaomi MiMo Studio:https://aistudio.xiaomimimo.com/#/c

一、MiMo-V2.5-Pro:专攻长难智能体任务,4.3小时搞定本科生数周项目

小米官方称,MiMo-V2.5-Pro是小米MiMo迄今最强大模型,在通用智能体能力、复杂软件工程以及长程任务等维度上,能与Claude Opus 4.6、GPT-5.4等全球顶尖Agent模型相当,相较其上一代模型MiMo-V2-Pro提升。

根据小米内部测试,搭配合适的运行框架,MiMo-V2.5-Pro可以稳定完成单次涉及近千轮工具调用的长程任务。且在智能体场景下,该模型指令遵循能力提升,其既能捕捉上下文中的隐性要求,又能在超长周期内保持逻辑一致。

基于小米MiMo团队开发的评估套件MiMo Coding Bench,MiMo-V2.5-Pro与Claude Opus 4.6的差距进一步缩小,得分分别为73.7分和77.1分,MiMo-V2-Pro是71.5分。

有推特网友用此前的网红问题实测了MiMo-V2.5-Pro,其问题是“我想去洗车,洗车店离我50米远,我应该走着去还是开车去”,MiMo-V2.5-Pro不负众望,给出了正确答案。

小米MiMo放出了几个MiMo-V2.5-Pro的实操案例。

首先是“用Rust实现完整的SysY编译器”。这一任务的难点在于,模型需独立完成词法分析器、语法分析器、AST、Koopa IR代码生成、RISC-V汇编后端,以及性能优化。

在实际操作中,该模型采用逐层搭建整个编译器的方式,其先搭完整流水线骨架再逐层攻克,在各项的具体分数中,其在Koopa IR、RISC-V后端、性能优化上都拿到了满分,首次编译实现了59%的冷启动通过率,这意味着在跑任何测试之前,架构是对的。在第512轮,该模型一次重构令lv9/riscv回退了两个测试点;模型自行诊断、恢复、继续推进。

这一任务是北京大学《编译原理》课程项目,北大本科生通常需要数周时间才能完成,MiMo-V2.5-Pro用时4.3小时、经过672次工具调用完成,在隐藏测试集上取得满分233分。

第二个官方案例是开发视频编辑器,其提示词为“构建一个视频编辑器Web应用”。MiMo-V2.5-Pro交付的Web应用具备多轨道时间线、片段裁剪、交叉淡化、音频混合以及导出流程等功能。其最终构建的代码量达8192行、历经1868次工具调用,在11.5小时的自主工作中完成。

第三个案例是模拟电路EDA任务,其需求是“基于台积电180nm CMOS工艺,从零开始设计并优化一款完整的翻转电压跟随器低压差线性稳压器(FVF-LDO)”。

完成任务期间,该模型需要确定功率晶体管尺寸、调整补偿网络并选择合适偏置电压,以使相位裕度、线路调整率、负载调整率、静态电流、电源抑制比和瞬态响应六个指标同时符合规格。

经验丰富的模拟电路设计师通常需要花费数天时间才能完成此类项目。研究人员将MiMo-V2.5-Pro连接到ngspice仿真循环中,并使用Claude Code作为仿真框架,经过大约一个小时的闭环迭代,其就生成了一个满足所有目标指标的设计,并且下面显示的四个指标比其初始版本提高了一个数量级:

二、MiMo-V2.5:能听能看能读,负责通用智能体场景

MiMo-V2.5是专为智能体场景打造的原生全模态模型,能通过同时看、听、读,并根据感知到的信息采取行动。

该模型此次有两个关键升级点:Agent能力全面超越MiMo-V2-Pro、多模态感知全面超越MiMo-V2-Omni,MiMo-V2-Pro是小米MiMo系列上一代旗舰基座大模型、MiMo-V2-Omni是上一代全模态Agent模型。

其中,在面向AI智能体的端到端可信评测基准Claw-Eval中,MiMo-V2.5表现超过MiMo-V2-Pro,同时API成本降低约50%;在关于跨模态推理、视频理解、图表分析等的基准测试VideoMME、CharXiv、MMMU-Pro等评测中,MiMo-V2.5表现逼近甚至超越了Claude Opus 4.6、Gemini 3 Pro、GPT-5.4等闭源模型。

在编程方面,小米内部的MiMo编程基准测试显示,MiMo-V2.5在日常编程任务中超越了Gemini 3.1 Pro,与Claude Opus 4.6仍有明显差距。

三、Token Plan:夜间专属时段可享8倍优惠,包年订阅至高可减近1000元

伴随MiMo-V2.5系列发布,小米还同步优化了其订阅式API调用套餐MiMo Token Plan,该计划允许用户使用MiMo系列8款模型,分别是旗舰推理模型MiMo-V2-Pro、MiMo-V2.5-Pro,全能多模态模型MiMo-V2-Omni、MiMo-V2.5,语音合成模型MiMo-V2-TTS、MiMo-V2.5-TTS、MiMo-V2.5-TTS-VoiceClone、MiMo-V2.5-TTS-VoiceDesign,后三个模型待发布。

首先是Credits速率更新、更优惠,取消1 Token=4 Credits计费方式,且不再区分256k和1M上下文窗口的Credit倍率。

新模型的Credits计费方式为:

MiMo-V2.5:1x(消耗1 Token=1 Credit)

MiMo-V2.5-Pro:2x(消耗1 Token=2 Credits)

作为对比,MiMo Token Plan刚发布时的计费方式为:

此外,MiMo Token Plan还会提供夜间专属优惠速率,每天00:00~08:00,所有模型Credits消耗速率在原有基础上再打8折。

在付费模式上,其此前预告的连续包月、包年订阅也已上线。连续包月中,老用户开通自动续费享次月7折,新用户享次月77折,包年订阅中,一次订阅享全年88折,包年至高可减948.96元。

截至北京时间4月22日22:00前,所有已购买Token Plan用户Credits额度将全部重置清零,但不重置套餐计时。

结语:小米再发力,跑通终端系统级原生智能体?

小米MiMo V2.5系列的升级围绕着智能体场景性能提升及更高Token效率两大关键,其在保障长链推理、工具调用、多任务协同等核心智能体性能的同时,大幅提升Token使用效率,降低算力与推理成本,或证明轻量化模型既能实现媲美超大模型的智能体表现,又能兼顾实用与普惠。

此次,小米MiMo旗舰模型再升级,也意味着其作为终端硬件厂商,正将自研底层大模型、系统级权限、全生态服务进行深度绑定与融合,打造真正意义上的系统级原生智能体,加速其人车家全场景AI的规模化落地。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10