在世界模型分岔口,李飞飞与谷歌新模型给出了不同答案

蓝鲸财经
Sep 19

蓝鲸新闻9月19日讯(记者 武静静)在生成式 AI 的叙事进入深水区后,业界的焦点逐渐从文本和图像生成转向“世界模型”。与传统的内容生成不同,世界模型试图让 AI 对真实的物理环境有更完整的理解与预测能力,它不仅回答“看到的世界长什么样子”,还要回答“接下来世界中会发生什么”。

生成式 AI 的下一轮竞争中,“世界模型”正在成为各方押注的核心方向。最近,李飞飞教授团队创立的公司 World Labs 发布了全新产品 Marble,这是一款基于图像到3D生成技术的升级版工具,强调在空间结构和几何一致性上的突破。与此同时,此前,谷歌 DeepMind 发布了其世界模型项目 Genie 3,侧重交互和物理规律的推演。

图:Marble生成的内容的一张截图,右上角为动态视频中的小地图

虽然,Marble与谷歌 DeepMind 发布的 Genie 3 看上去都是世界模型,但是背后的技术路径和认知则截然不同。

Marble与Genie 3,对世界模型不同技术路线的实践

World Labs 成立于 2024 年 4 月,短短几个月就吸引了硅谷顶级投资机构 a16z 和 Radical Ventures 的下注。资本的快速进入,本质上是对“空间智能”这一全新技术方向的认可。

Marble 目前处于测试阶段,它的特点是可以通过一张图片或一句文字,生成一个完整、可自由探索的三维虚拟世界。生成的环境不会随时间消失或出现形变,整体保持高度的一致性和几何连贯性。用户进入后,可以像在游戏里一样用鼠标自由游览。

有创作者用 Marble 搭建了一个可导航的舞台,并在其中规划镜头和场景,就像拍摄电影一样。而 World Labs 方面则强调,Marble 不仅能生成规模更大、风格更丰富的环境,还能提供更清晰的三维几何细节。它更适合构建舞台、房间或广阔的自然景观,而不是单一的物体或角色。

在 Marble 的官网上,已经有人用它创造出奇幻的房屋、海底世界和森林地图,看起来颇有“头号玩家”式的沉浸感。创作者们还能对场景进行缩放、拼接和多代迭代,从而得到更复杂、更持久的世界。无论是动漫风、卡通风,还是照片级的真实画面,它都能支持,这让电影人、游戏开发者和数字艺术家都可能成为它的用户。

资深的AI应用用户Jason 在亲自体验了一个月 Marble AI 后表示,李飞飞教授的团队选择了一条与主流完全不同的路径,去探索、“空间智能”。和 Genie3 这种强调交互、实时生成的视频模型不同,Marble 更关注空间结构本身的合理性与关联性。

他提到,Marble 不是实时生成的,但可以被实时探索。他用 plus 版大约十分钟就能生成一个完整的空间环境,里面可以前进、探索,具备物理空间结构,而不仅仅是视频帧或深度贴图。

不过,由于还是早期版本,Marble 生成的只是一个“世界空间的壳”,画面精度有限,局部模糊,也缺乏光影变化或物理现象的交互。他强调,这并不是大家口中常说的“世界模型”,因为智能更多体现在生成过程中,而非交互环节。

“它谈不上颠覆,但确实展示了另一种可能性。”Jason 说。他认为,Marble 最大的价值在于从空间维度去探索世界生成,在空间合理性和物理关联上开了一个新口子。

与 Marble 强调空间几何不同,谷歌 DeepMind 推出的 Genie 3 代表了另一种逻辑:它关心的是“空间里正在发生什么”。

Genie 3 可以通过文本提示生成动态环境,并以每秒 24 帧、720p 的分辨率运行数分钟。它的独特之处在于,不依赖动作标签,而是通过视频训练推断潜在的交互逻辑。例如,给它一张游戏截图或一幅火柴人草图,它能自动推断出谁是玩家角色,哪些元素可以跳跃、移动或互动。这让 Genie 3 更像一个“交互物理模拟器”,而非几何建模工具。

换句话说,如果 Marble 是“舞台布景师”,Genie 3 就是“规则设定者”。前者提供一个逼真的空间容器,后者让容器内的角色与事件真正“活起来”。

一位AI领域资深投资人告诉蓝鲸科技,一个真正完整的虚拟世界,需要两者结合:既要有稳定连贯的空间,也要有动态交互的逻辑。如果说 Marble 提供的是“眼见为实”的真实感,Genie 3 代表的则是“身临其境”的互动感。

Marble 背后有 a16z 这样的科技长期主义者,他们看重的是空间智能可能带来的平台化机会——未来或许可以成为下一代虚拟环境构建工具。Genie 3 的意义则在于强化谷歌在世界模型上的前沿地位,借此推进具身智能和通用 AI 的研究。两家机构背后的发心不同,路径选择也不同,

不过他认为,从商业化角度来看,Marble 的短期路径更清晰,直接面向内容生产行业。而 Genie 3 则更偏科研和前沿探索,距离可规模化应用还有一定距离。

世界模型的产业化路径

与硅谷的探索不同,中国创业公司正在尝试让世界模型快速落地。极佳科技就是其中的代表。极佳科技团队曾在自动驾驶仿真领域积累多年,帮助多家车企构建虚拟测试环境。公司去年开始转向具身智能领域。他们发布了基于世界模型训练的 VLA(视觉-语言-动作模型)—— GigaBrain,其世界模型平台 GigaWorld 也将在近期上线,提供更开放的仿真环境。

极佳科技联合创始人朱政指出,不同领域对“世界模型”的定义差异很大:在 计算机视觉(CV) 领域,研究者更关注视频生成与画面一致性;在 强化学习(RL) 领域,重点是为 agent 提供一个足够逼真的环境,以便进行动作决策;在 具身智能 方向,则强调如何让机器人通过世界模型理解环境、执行任务。

“无论哪种定义,核心价值都在于预测未来。”他解释说,“给定一个动作序列,世界模型需要告诉我们环境会如何变化。这种预测能力可以应用于文生视频、自动驾驶,也可以体现在机器人动作规划中。”

在他的规划中,世界模型的产业化大致经历三个阶段:数据生成阶段:用世界模型扩展训练数据,降低真实采集成本;仿真阶段:为智能体提供闭环仿真环境,提高训练效率;智能进化阶段:最终成为下一代 VLA,具备推理与行动能力,成为通用智能的核心。

相比谷歌等大厂的科研导向,中国创业公司的优势在于“贴近场景”。自动驾驶、工业仿真、VR 内容生产,这些应用都有明确的市场需求。世界模型可以在这些场景中直接发挥价值,从而更快地形成商业闭环。

不过,挑战同样存在,生成和训练世界模型需要极大算力,创业公司难以长期独立承担;此外,目前行业对世界模型没有统一标准,不同技术路线之间缺乏可比性。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10