我用Meta“华人天团”打造的新模型,一张图复刻了一个“豆包App”

智东西
Apr 09

作者 | 陈骏达

编辑 | 云鹏

Meta的“牛油果”模型,终于熟了!

智东西4月9日报道,今天,在成立9个月后,Meta超级智能实验室(MSL)发布了其首款模型Muse Spark(内部代号牛油果)。这是一个原生的多模态推理模型,支持工具使用、视觉思维链和多智能体编排。

在大模型测评平台Artificial Analysis上,Muse Spark的智能指数直接从Llama 4 Maverick的18分,跳到了52分,介于Claude Sonnet 4.6和Claude Opus 4.6之间,算是进入第一梯队了。

我们第一时间对模型做了体验,上传了一张豆包App的截图,要求Muse Spark复刻。可以看到Muse Spark的回复风格比较口语化,甚至有一股“豆包味儿”,这可能是因为这一模型主要面向C端用户。

Muse Spark的生成速度很快,效果也不错,基本1:1复刻了豆包的页面,连图像都还原了。

Muse Spark还通过了小球弹跳测试。有网友感叹道,时隔1年多,Meta终于发了一款能通过六边形小球弹跳测试的大模型,这一历史性时刻值得记录。

Muse Spark是ScaleAI创始人、Meta首席AI官汪滔(Alexandr Wang)加入Meta 10个月后,交出的首份答卷。

这一结果来的并不容易,此前,在Llama 4遭遇史诗级滑铁卢后,Meta大刀阔斧地重组了AI团队,唱衰大语言模型的杨立昆也最终离开。

汪滔称,Meta在过去9个月从零开始打造AI技术栈,基础设施、架构、数据管线都是全新的,Muse Spark正是这些努力的成果。

加入Meta的不少华人AI大牛纷纷转发了这一成果,包括赵晟佳、毕树超、余家辉、Jason Wei等等。值得一提的是,MSL团队的华人浓度很高,在转发新模型的Meta研究员中,从领导到基层员工,许多都是华人。

另据Top华人科创社的报道,Meta还迎来了一位新的华人大牛,前蚂蚁集团RL实验室首席科学家吴翼加盟了Meta MSL,直接向Meta副总裁和MSL联合负责人Nat Friedman汇报。

Muse Spark是MSL Muse系列模型中的首款,未来还会有更多该系列模型发布。目前Muse Spark已开始逐步推送至Meta旗下的应用和Meta.ai网页端,不过仍有用户反映自己使用的模型仍是Llama 3。

同时,“开源”两个字在相关博客中,一次也未被提及。

体验链接:meta.ai

一、多模态、医疗健康表现突出,智能体和编程仍是短板

从基准测试结果来看,Muse Spark在多模态感知、推理、医疗健康和智能体等领域的表现处于行业第一梯队。不过,MSL承认这一模型在长程智能体系统和编程工作流方面性能尚有差距。

以下是Muse Spark完整的基准测试成绩。需要注意的是,Meta在这里采用了一些有“图表诈骗”嫌疑的数据呈现方式。乍一看,Muse Spark的所有成绩都被标蓝,似乎全面领先,但实际上这一模型在图中的20项基准测试中,拿到的SOTA数量为4个

在多模态能力维度,Muse Spark的表现较有竞争力,在美国大模型圈没有被拉开明显代差,基本和GPT-5.4处在同一水平线上。Muse Spark的表现也符合其原生多模态大模型的定位。

作为一款将部署于Meta旗下众多社交媒体、面向广大个人用户的模型,Muse Spark在用户高频关注的医疗健康领域同样没有掉队。在HealthBench Hard与MedXpertQA(多模态)两项评测中均斩获SOTA,显然对此进行了重点优化。

Muse Spark本次还发布了“沉思模式(Contemplating mode)”,该模式可协调多个智能体并行推理。这使得Muse Spark能够与Gemini Deep Think和GPT Pro等前沿模型的极限推理模式相媲美。

开启“沉思模式”后,Muse Spark在复杂任务中的能力得以提升,比如它在HLE“人类最后的考试”基准测试中,取得了58%的正确率在“前沿科学研究”基准测试中取得了38%的正确率。

二、所需算力资源比Llama 4少一个量级,采用新型强化学习技术栈

跑分之外,这一模型的新定位和背后技术,也值得关注。

Meta称,Muse Spark是迈向个人超级智能的第一步,它能够理解用户所处的世界,多模态能力和医疗健康就是当前的两个重点。

Muse Spark从底层架构层面,整合了跨领域和工具的视觉信息,在识别、定位方面的能力不错。这些功能结合起来,可以实现各种交互式体验。

例如,用户可以上传一张游戏画面截图,然后让Muse Spark把它变成一个能真正互动的游戏。

或是告知Muse Spark自己有高胆固醇的问题,并让Muse Spark基于多模态能力和医疗知识,做一个动态的食物推荐页面。

Meta在博客中分享的demo也仅仅涉及多模态和医疗健康领域,这或许意味着Muse系列模型最终的用途,仍然是服务于扎克伯格的个人超级智能愿景,而不是单纯地追求智能上限。

在技术方面,MSL大幅度提升了算力利用率,与之前的模型Llama 4 Maverick相比,Muse Spark用少一个数量级以上的计算资源就能达到相同的性能。

同时,MSL还在强化学习阶段采用了新技术栈,在大规模强化学习中带来平稳、可预测的性能提升。

三、一手实测:精准识别食物热量,还给Meta AI眼镜造了个新品

Muse Spark发布后,我们进行了更多实测。

Muse Spark的多模态能力确实不错,我们上传了一个啤酒瓶的照片,让它分析热量。Muse Spark一眼就看出了啤酒的品牌、大小,甚至连原图中肉眼都难以分辨的酒精度都准确识别出来了。

它对于热量的分析则来自搜索,还把热量转换成了我们日常吃的食物,并给出要消耗这些热量对应的运动量,是比较实用的。

我们紧接着让Muse Spark给Meta的AI眼镜做一个宣传网页,没给任何参考。可以看到,在思考过程中Muse Spark主动调用AI生图模型打造了对应的产品图片,然后编写完整页面代码,整个过程耗时2分钟左右,效果如下:

这一网页的完成度不错,直接给Meta设计出了一款搭载Muse Spark的新品AI眼镜。模型还自夸道,这是一个旗舰级的官网,不是普通的落地页,是按Apple Vision Pro发布会标准做的。

Muse Spark还可用于购物推荐。我们试着让它搜索一款汽车雨刮器,几秒钟就拿到了好几个选项,并且有对每款产品优势劣势的分析和最终购买建议。

结语:牛油果熟了,但Meta的“个人超级智能”仍需耐心

作为Meta超级智能实验室的首秀,Muse Spark已经展现出跻身第一梯队的水准,足够让人期待未来的Muse系列后续产品。

不过,扎克伯格想要的“个人超级智能”,目前还停留在医疗健康问答、网页复刻、购物推荐这些相对可控的场景里。距离真正改变数亿用户的交互方式,还有很长的路要走。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10