春节档国产AI模型混战开打,MiniMax-M2.5上线,随手做“苹果系统”

智东西
Feb 13

智东西2月12日消息,春节将至,国产AI大模型之战愈发火爆。

短短1天多时间,DeepSeek、智谱、字节等多家厂商模型密集更新,MiniMax-M2.5正式上线,其重点提升了Agent和编程能力。

▲MiniMax-M2.5已可选

MiniMax AI相关负责人在X平台上发文称,他想尽快发布M2.5,已经迫不及待想回家过年了,但随着他们投入的训练计算增多,模型效果也越来越好,这是一个痛并快乐着的问题。

▲MiniMax AI工程负责人Skyler Miao在X平台发文

智东西第一时间体验了MiniMax-M2.5在定时任务、网页制作、调研报告撰写、视频生成、PPT制作等任务执行上的能力。

从结果来看,网页制作是其强项,尤其在可视化表达方面,网页的视觉呈现效果较好,比如我可以一句话让它生成一家公司的投资分析仪表盘。

▲关于苹果公司的可视化仪表盘分析网页

做一个“黄金矿工”网页版游戏,MiniMax-M2.5也可以给出不错的结果。

▲网页版黄金矿工小游戏

定时任务方面,其可以按照要求按时完成任务,但不同任务呈现的结果质量有一定差异。此外,不论是PPT制作还是调研报告生成,其生成结果的详实程度都较好,输出篇幅较长。

有X平台用户提前三天拿到了内测资格,他发文称,MiniMax-M2.5提升明显,和Opus 4.6打的有来有回,其模型体积小,据传Mac mini也能部署。他还晒出了MiniMax-M2.5制作的网页版“macOS系统”。

▲X平台用户评价

截至2月12日港股收盘,MiniMax股价涨幅14.62%,总市值1622亿人民币,其股价盘中曾一度涨幅超23.5%。根据官网信息,MiniMax将于3月2日公布全年业绩。

▲截至2月12日收盘,MiniMax港股股价情况

01.

网页设计是强项

一句话做“黄金矿工”小游戏

首先,在考察编程能力的网页制作环节,我们让模型创建一个网页仪表盘,对苹果公司进行可视化分析,内容必须涵盖财务健康状况、技术面/市场情绪、竞争对手比较以及战略估值(SWOT/内在价值),以提供明确的投资建议。

从结果来看,需求中提到的基本指标都有较好覆盖,SWOT分析给出的较为具体,整体网页设计比较简洁、美观,基本的动效都已做好,数据展示较为直观,鼠标悬停在统计图表上会有对应数据呈现。

接着,我们让模型为一家AI创业公司设计官方网站,融入太空主题元素,使用黑、白、灰作为主色调,营造出酷炫、精致且充满科技感的氛围,特别要有一个能让用户感到震撼的精美地球动画。

从结果来看,网页焦点处确实有地球动画效果呈现,且地球本身可以跟随鼠标进行一定程度的运动。

但网页本身并没有实现主色调的要求,对于精致、科技感的要求没有明确呈现,地球动画本身带有一些类似“粒子光效”的表现,但整体感觉并未达到“震撼”的水平。

网页游戏制作令我们印象比较深刻,虽然第一次的生成效果“翻车”,游戏无法交互游玩。

▲初次生成的版本无法游玩,仅有首页封面

但重新生成后,游戏本身完成度还是比较高的

基本的游戏模式、游戏说明、游戏关卡、游戏操作都按照要求完成了,并且确实可以游玩,游戏过程还配合了对应的音效。

02.

专业报告一键生成

PPT制作学会用比喻润色

此外,我们通过几个任务测试了模型生成专业研究报告的能力,比如全面梳理AI开源推理生态、分析应用场景、对应方案并分析原因。

从结果来看,其输出内容逻辑清晰,在展示不同框架异同时用了表格进行对比,内容较多比较详实,约6000字。

▲AI开源推理生态相关研究报告生成

对于“计划开发一款针对初学者的AI 3D建模工具”这一需求,我们让模型分析目标用户画像和用户在主要场景下的核心痛点,并推导出对应的潜在功能需求,写出MVP需求文档和初期运营增长路径。

▲AI 3D建模工具产品MVP需求文档

从结果来看,所有需求要点都有比较准确的对应信息,需求文档和运营增长路径都有多个表格呈现梳理的内容,路径规划较为具体。

▲AI 3D建模工具初期运营增长路径

PPT制作环节,我们要求PPT“让学生真的能听进去”,举的例子能让他们产生共鸣,对于这一需求,模型在PPT制作中用了很多“比喻”,融入了一些当代元素,比如“唐朝朋友圈”、将长安城比作“北上广深”、将杜甫比作关注民生的“新闻记者”。

不过模型在PPT制作的美观程度和细节严谨程度方面还有待提升。

03.

新闻报告成“旧闻汇总”

视频生成仍有优化空间

Agent能力方面,我们还测试了两个定时任务,包括每日科技要闻摘要和TikTok热门趋势周度分析。

虽然需求强调了是24小时内新闻,但给出的8个新闻全部为“过时消息”,基本均为2025年旧闻。这样即便总结的新闻内容较为准确,但已经失去了最根本的“新闻”属性。

▲每日科技新闻摘要

同时,对于检索来源的标注只标明了媒体名称,并未带上对应的Source Link。

在TikTok热门趋势周度分析任务中,模型首先总结了核心趋势动向,接着对热门挑战、热门音频、热门话题标签、重要创作者等部分进行了分析总结,最后按照要求给出了内容创作建议。

▲TikTok热门趋势分析报告

最后,我们简单尝试了视频生成,从结果来看,模型并没有对需求中狗的品种有准确呈现,不过画面的氛围、主物体动作、背景元素都有准确还原。

提示词:

04.

结语:

编程和Agent能力仍是模型竞赛焦点

虽然MiniMax-M2.5尚未官宣发布,但从实际体验和公开评价来看,其提升的重点仍然是Agent能力和编程能力,这也是当前主流大模型竞争的焦点。

从生成结果来看,“拿来即用”仍然存在一定距离,大部分结果仍然需要修改校对,对需求的准确呈现仍然存在优化空间。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10