击败谷歌、英伟达!清华陈建宇×斯坦福Chelsea团队世界模型Ctrl-World具身能力登顶全球

机器之心
Feb 26

在全球具身智能领域的顶级权威评测 WorldArena 榜单中,清华陈建宇(星动纪元创始人)团队联合斯坦福 Chelsea Finn(PI 创始人) 团队研发的 Ctrl-World 世界模型交出优异答卷:

具身任务能力斩获全球第一,更在主体一致性、轨迹精度、深度准确性、策略评估一致性四大核心维度登顶;

视频生成能力排名全球第二,仅次于阿里 Wan 2.6,强势超越谷歌 Veo 3.1、英伟达 Cosmos-Predict 2.5 等世界顶尖模型;

Ctrl-World 成为在“视频生成质量”(看起来真实) 与“具身任务”(真正可用) 两大维度均跻身顶级梯队的世界模型。

14 个世界模型在 WorldArena 融合多维度表现的 EWMScore 综合指标评分

(a) Ctrl-World 在具身策略评估一致性上高达 0.986,远超英伟达等同类模型;(b) Ctrl-World 以 59.70 在视频生成质量上排名全球第二,超越谷歌 Veo 3.1(58.87),仅次于阿里 Wan 2.6(61.86)

WorldArena:

全球具身世界模型的“终极试炼场”

WorldArena 之所以能成为行业公认的权威榜单,核心在于其“全面、硬核、具引领性”的定位,彻底区别于泛化的 AI 评测体系,其专业权威源于三大核心特质:

1. 硬核基准:顶尖学术共建,全方位综合评测

WorldArena 由清华大学牵头,联合普林斯顿大学、新加坡国立大学、北京大学、香港大学、中科院、上海交通大学、中国科学技术大学等 8 所全球顶尖学术机构共同研发,团队成员均为具身智能、计算机视觉、机器人学领域的权威学者,共同制定了兼具科学性与实用性的硬核评测标准。

该体系聚焦具身世界模型这一核心领域,打造了涵盖 16 大核心指标、3 大真实应用任务的全方位综合测试场景,全面考核模型的感知精度、物理理解、空间认知、动作预测及实际落地适配能力,实现对具身智能核心技术的全方位、深层次检验,而非单一维度的能力比拼。

2. 参赛阵容鼎盛:全球巨头与顶尖机构同台竞技

得益于其权威的评测标准与行业影响力,全球顶尖具身世界模型研发团队均主动参与评测,首批参评阵容涵盖国际科技巨头、顶尖学术机构,包括:谷歌、英伟达、阿里、字节、智谱、智元、极佳视界、清华大学、斯坦福大学、北京大学、香港大学、普林斯顿大学等。

此次共有全球顶尖 14 款参赛模型同台竞技,覆盖通用视频生成衍生模型、机器人专用模型等所有主流技术路线,真正形成“全球顶级玩家齐聚”的格局,榜单结果不仅是各模型能力的直观排名,更成为行业技术研发、方向布局的重要“风向标”,引领具身智能领域的创新发展。

3. 评测硬核:16 项指标 + 3 大任务,直击“真干活”的核心需求

WorldArena 的评测体系围绕“具身实用”设计,聚焦“真能干活”:

视频质量 6 大评估维度示意图:视觉质量、运动质量、内容一致性、物理贴合度、3D 精度、可控性,每个维度都有明确的优劣判断标准

6 大核心维度涵盖视觉质量、运动质量、内容一致性、物理贴合度(Physics Adherence)、3D 准确性(3D Accuracy)、可控性,细分为 16 项量化指标,每一项都对应机器人实际应用的痛点;

具身任务评估体系概览:通过数据引擎、策略评估、动作规划三大任务,全面测试模型的实战能力

3 大具身任务(数据引擎、策略评估、动作规划)模拟模型的真实使用场景,直接考核“生成的内容能不能训练机器人”、“模拟的环境能不能测试策略”、“规划的动作能不能完成任务”;

70 位专业标注者对 3500 个视频进行主观评估,确保结果既符合技术标准,又贴近人类对“实用”的直觉判断。

现有世界模型基准与 WorldArena 的评测维度对比:

该表从视频质量 6 个子维度、具身任务 3 大核心角色及人类评估维度,全面对比了主流评测基准与 WorldArena 的覆盖情况,直观体现了 WorldArena 在具身任务评测上的独家优势,是其成为具身世界模型专属评测金标准的核心依据。

这种“技术指标 + 实用任务 + 人类校验”的三重考核,让 WorldArena 的排名不只是“分数高低”,更是模型实际应用价值的直接体现。

Ctrl-World 四大具身维度登顶

斩获具身任务能力全球第一

14 款世界模型在视频质量三大维度(视觉质量、运动质量、内容一致性)的各项指标评分表:

Ctrl-World 在主体一致性全球第一 (0.8411)

14 款世界模型物理贴合度、3D 准确性及可控性评分:

Ctrl-World 在轨迹准确性(0.4766)、深度准确性(0.9300)等核心指标上的领先地位,其中轨迹准确性(0.4766)位列全球第一

1. 主体一致性全球第一(0.8411):筑牢具身任务落地的基础

Ctrl-World 以 0.8411 的得分拿下该指标全球第一。这一指标用于衡量视频中生成物体的身份、外观与形态在时序维度的稳定程度,Ctrl-World 的领先表现,使其生成的机器人操作视频能最大程度规避物体位置漂移、形态形变或身份混淆等问题,为机器人作业提供了高保真的“数字孪生”交互对象。

图中展示了 WorldArena 基准中主体一致性(Subject Consistency)的高低分案例对比,直观说明 Ctrl-World 以 0.8411 位列全球第一的技术优势:

高分案例(90.07):在“adjust bottle”任务中,瓶子在机械臂交互全过程中保持形状、颜色、标识及位置的时序稳定,无漂移或形变,体现高保真“数字孪生”特性;

低分案例(1.242):同场景下瓶子出现严重几何变形与身份特征丢失,产生视觉噪声,直接影响机器人策略训练的可靠性。

2. 轨迹精度全球第一(0.4766 ):动作精准度媲美真实物理轨迹

轨迹准确性(Trajectory Accuracy)衡量机械臂运动轨迹与真实物理轨迹的对齐度,是机器人动作规划的核心基础。Ctrl-World 以 0.4766 的绝对优势位列全球第一,意味着其生成的机械臂运动轨迹与真实世界物理运动几乎完全吻合,为机器人提供了可信赖的“数字孪生”动作模板。

图中展示了 WorldArena 基准中轨迹准确性(Trajectory Accuracy)的高低分案例对比,直观说明 Ctrl-World 以 0.4766 位列全球第一的技术优势:

高分案例(92.95):在 “move can pot”任务中,机械臂运动轨迹(红色路径线)与真实物理轨迹(GT)高度吻合,动作精准连贯,符合物理运动规律;

低分案例(8.64):同场景下轨迹出现显著偏离,伴随异常跳跃和不连贯动作,无法复现真实物理运动。

3. 深度准确性全球第一梯队(0.9300 ):3D 空间认知遥遥领先

在 3D 准确性维度的深度准确性(Depth Accuracy)指标上,Ctrl-World 以 0.9300(与第一位差距仅 0.0012)属全球第一梯队,展现了对三维空间结构的精准把握。这一能力直接决定机器人在抓取、堆叠、插入等精密操作中的成功率,避免因“空间感知偏差”导致的抓空、碰撞等失误。

该图展示了 WorldArena 基准中深度准确性(Depth Accuracy)高低分案例对比,直观说明 Ctrl-World 以 0.9300 全球第一梯队技术优势:

高分案例(深度准确性 91.58 ):在“stack blocks three”与 “stack bowls two”任务中,生成深度图与真实场景(GT)高度一致,物体空间位置稳定、透视关系合理,机械臂与物体保持正确的空间分离与物理接触,体现精准的三维空间结构认知;

低分案例(深度准确性 59.07):同场景下出现机械臂与物体异常融合(穿透)、严重几何失真、鬼影模糊及阴影缺失,空间完整性崩塌。

4. 策略评估一致性全球第一(Pearson r=0.986):虚拟测试 = 真实测试

在最具实用价值的策略评估(Policy Evaluator)任务中,Ctrl-World 与真实物理模拟器(RoboTwin 2.0)的评估结果相关性高达 0.986,近乎完美复刻真实环境动态。这意味着开发者可直接用 Ctrl-World 测试机器人策略,无需搭建昂贵的真实物理环境,大幅降低研发成本。

世界模型与物理模拟器的策略评估结果相关性:

Ctrl-World 的 Pearson r=0.986,近乎完美复刻真实环境评估结果,远高于英伟达 Cosmos-Predict 2.5 的 0.483,印证了其作为虚拟仿真环境的可靠性。

从指标高分到任务成功:

解码 Ctrl-World 的“实力转化”

Ctrl-World 在物理贴合度、3D 准确性及可控性等维度的全面领先,并非仅仅是实验室里的数字游戏,而是直接决定了其作为“机器人大脑”的实用价值。WorldArena 的评测数据清晰揭示了这种转化关系:

1. 高保真策略评估:虚拟测试即真实测试

在 Policy Evaluator 任务中,Ctrl-World 与 RoboTwin 物理模拟器的评估相关性高达 0.986,这意味着在 Ctrl-World 中测试的机器人策略性能,与在真实物理环境中测试的结果几乎无差异。相比之下,Cosmos-Predict 2.5 的相关性仅为 0.483。这一差距的背后的技术逻辑在于:Ctrl-World 通过显式动作建模(Action-Conditioned)架构,将机械臂关节角度、末端执行器位姿等低层物理参数直接作为生成条件,强制模型学习“执行动作 A→产生状态 B”的因果物理链,而非仅仅根据文字描述“猜测”动作。

2. 动作规划成功率:物理准确性直接决定任务成败

在 Action Planner 任务中,虽然当前所有世界模型的绝对成功率仍有提升空间,但 Ctrl-World 的物理准确性优势为其奠定了最可靠的基础。在闭环动作执行任务中,物理贴合度和轨迹精度的高低直接决定了机械臂能否完成“调整瓶子”、“点击铃铛”等操作。Ctrl-World 的轨迹精度(0.4766)和深度准确性(0.9300)确保了生成的动作序列在真实机器人上执行时,能够精准到达目标位置并维持物理稳定的交互,避免了因“空间感知偏差”导致的抓空、碰撞等操作失误。

3. 合成数据的有效性:从“能生成”到“能训练”

在 Data Engine 任务中,Ctrl-World 生成数据的物理合理性确保了其可用于训练真实策略。原论文指出,许多模型生成的合成数据虽然视觉上清晰,但因缺乏物理一致性,训练出的策略在真实环境中完全失效(“virtual data training, real world failure”)。而 Ctrl-World 通过嵌入物理引擎约束的训练方式,确保生成的视频不仅“看起来对”,更“物理上对”,使其合成的视频 - 动作序列真正具备训练价值。

Ctrl-World 的“制胜密码”

1. 动作条件化(Action-Conditioned)架构

与 Genie Envisioner、GigaWorld 等文本条件化模型不同,Ctrl-World 采用显式动作建模,直接将机器人动作参数(关节扭矩、夹爪开合度)注入生成过程。原论文明确指出:“explicit action modeling plays a critical role in producing physically plausible interactions”(显式动作建模对产生物理合理交互至关重要)。这使其能够精确模拟接触力反馈、惯性传递等物理现象,从根本上避免了文本模型常见的“物体穿透机械臂”、“隔空吸附”等错误。

2. 物理引擎约束嵌入

Ctrl-World 在训练过程中嵌入物理引擎约束,将牛顿力学定律“内化”为生成过程的硬约束。不同于单纯依赖像素统计规律的通用视频模型,Ctrl-World 通过物理引擎监督,强制生成内容遵守质量、摩擦、碰撞守恒律。这正是其策略评估相关性达到 0.986 的核心原因 —— 生成过程受物理规律约束,模拟的环境动态与真实物理模拟器的误差极小。

3. 多视图联合与视频预测模型

针对 Depth Accuracy 第一梯队成绩,Ctrl-World 融合多视图联合预测与视频预测模型,不仅预测 RGB 像素,更隐式建模深度图与点云结构,利用多视角数据训练空间认知能力,使其在处理“堆叠积木”等需要精确深度准确性的任务时,成功率超仅使用单目视频训练的模型。

从“生成好看”到“真能干活”

世界模型进入新阶段

清华陈建宇团队联合斯坦福 Chelsea Finn 团队研发的 Ctrl-World 在 WorldArena 拿下“具身任务第一、视频生成综合第二”的佳绩,核心在于其精准把握了具身世界模型的本质 ——“以物理规律为根,以空间认知为骨,以功能 utility 为魂”。随着更多模型加入评测、更多场景被纳入体系,WorldArena 将持续推动具身世界模型向“更懂物理、更有空间感、更能干活”的方向发展,加速机器人自主智能的落地进程。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10