对标Genie 3,蚂蚁灵波开源世界模型LingBot-World

凤凰网科技
Jan 29

凤凰网科技讯(作者/董雨晴) 1月29日,继连续发布空间感知与VLA基座模型后,蚂蚁灵波科技开源发布世界模型LingBot-World。据披露,该模型在视频质量、动态程度、长时一致性、交互能力等关键指标上追平Google Genie 3,目标是为具身智能、自动驾驶及游戏开发提供高保真、高动态、可实时操控的“数字演练场”。

针对视频生成中最常见的“长时漂移”问题(生成时间一长就可能出现物体变形、细节塌陷、主体消失或场景结构崩坏等现象),LingBot-World通过多阶段训练以及并行化加速,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供支撑。

交互性能上,LingBot-World可实现约16 FPS的生成吞吐,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时控制角色与相机视角,画面随指令即时反馈。此外,用户可通过文本触发环境变化与世界事件,例如调整天气、改变画面风格或生成特定事件,并在保持场景几何关系相对一致的前提下完成变化。

模型具备Zero-shot泛化能力,输入一张真实照片(如城市街景)或游戏截图,可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,从而降低在不同场景中的部署与使用成本。

为解决世界模型训练中高质量交互数据匮乏的问题,LingBot-World采用了混合采集策略:一方面通过清洗大规模的网络视频以覆盖多样化的场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”提供精确对齐的训练信号。

目前,LingBot-World模型权重及推理代码已面向社区开放。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10