炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:经济观察报)
文/陈永伟
8月5日,谷歌DeepMind发布了其新模型——Genie 3。
该模型能够根据用户的文本或图像提示,实时生成可供用户与AI智能体(AI Agent)互动的3D虚拟环境。例如,用户只需输入“月球上的火山边”,Genie 3便能即时生成一片浮动的火山、黄色的大地与远处的宇宙背景,并允许用户进入探索。
相比此前的AI模型,Genie 3展现出更强的实时交互能力,并在互动时长和记忆连贯性上表现尤为出色。例如,如果用户在生成的房间墙壁上涂鸦,然后转身探索别处,那么当他稍后返回时,墙上的涂鸦依旧保留。
不仅如此,Genie 3还引入了“可提示的世界事件”(Promptable World Events)功能。这允许用户在交互过程中,通过新的文本指令动态改变世界。无论用户要求“加入一只奔跑的小狗”“把天气从晴天变成大雨”,还是“将环境从海边变成山上”,Ge-nie 3都能瞬间响应。
Genie 3的出色表现不仅刷新了AI生成世界的边界,也让人们看到了另一条通向通用人工智能(AGI)的路径——“世界模型”(World Model)的希望。一时间,关于“世界模型”的讨论频频见诸媒体。
那么,什么是“世界模型”?它如何实现?又能为我们带来什么?且让我们一一道来。
世界模型简史
在人工智能领域,许多重要的模型都是模仿人类的某种能力或大脑的某种机能建立的。例如,卷积神经网络(CNN)的灵感来自生物视觉皮层感受域(receptive field)的工作方式,Transformer模型则借鉴了人类注意力的聚焦机制。同样,世界模型的灵感源自对人脑一种重要机制的模仿——在大脑中构建并运用“内部世界”(inner world)的能力。
设想一下,你正走在大街上,突然看见一辆汽车急速驶来。这时,你会迅速在脑中进行计算,模拟它在接下来几秒的运行方向和速度,并判断是否需要避让以及向哪个方向避让。随后,你的身体会根据大脑的判断采取行动。需要注意的是,此时你脑中的工作机制与传统机器学习有显著不同——机器学习的判断依赖于对大量数据的学习,这意味着只有在多次遭遇汽车迎面驶来并积累了统计经验后,才可能得出预测。然而,现实中这种突发情境极为罕见,人类几乎不可能仅靠经验学习来应对。事实上,面对突然驶来的汽车,人们依靠的往往不是经验,而是一种预测能力。换言之,你会在脑中提前“看到”那辆车未来的位置。这种“在心中演练未来”的能力,是人类智能最基本、也最奇妙的组成部分。
很早以前,就有人注意到人类构建“内部世界”的能力。18世纪,德国古典哲学家康德指出,人类的感知从来不是对现实的直接复制,而是在心灵内部通过某种“先验框架”加以组织和解释的。从这个意义上讲,我们所见的世界,其实是自己建构的一个版本。20世纪,心理学家皮亚杰进一步指出,儿童并非被动接收信息来理解世界,而是通过不断尝试、失败与重建,在脑中建立起一套关于世界运行规则的“心理模型”。这些模型使他们能够预判事件的后果并指导决策。正因如此,人类才能成长为拥有计划与想象力的存在。
随着现代认知科学兴起,“人类可以不依赖真实世界输入而进行‘心智模拟’(Mental Simulation)”这一事实得到进一步证实。研究还发现,人脑会不断用感官输入来验证和修正自己的预测,使构建的“内部世界”愈加接近真实世界,并用更新的模型持续模拟现实、指导行动。
人工智能学科创立之初,专家们便开始尝试模仿人脑的这种能力。例如,维纳等人的反馈控制理论强调,智能体要与环境交互,必须对环境状态有内部表示。同一时期,“符号主义”学者尝试用逻辑规则和知识图谱构建“世界描述”,并通过推理机进行决策,在棋类、路径规划等领域取得不少进展。20世纪70年代的Shakey机器人,就已能在“内部地图”上模拟移动与避障。
进入20世纪80年代,随着统计学习方法的发展,研究者开始用概率模型刻画环境动态,并将隐马尔可夫模型(HMM)、卡尔曼滤波等先进统计方法应用于内部世界构建。这类模型的优势在于能够从数据中估计转移概率,减少对人工规则的依赖,但缺点同样明显——一旦状态空间维度上升,模型规模与计算量便呈爆炸式增长,难以适用于图像、视频等高维感知输入。
1989年,理查德·萨顿将强化学习与“内部世界”思想结合,提出Dyna架构。利用该架构,智能体既可以直接从环境中学习策略,也可利用学到的环境模型在内部进行计划(plan-ning)。显然,这一思路正是对人脑“心智模拟”功能的模仿。
1990年,时任博士生的人工智能专家于尔根·施密德胡伯(JürgenSchmidhuber)提出,理想的AI模型应像人类一样,对真实世界有全面而准确的认知,并能模拟可能发生的情况。这样的模型不仅要理解“现在”,还要想象“未来”;不仅要描述“是什么”,还要推测“会变成什么”。它不是传统的分类器或生成器,而是一种具备“时间意识”的智能体。施密德胡伯将这种理想模型命名为“世界模型”,并在博士论文中用循环神经网络(RNN)构建了一个简单版本,“世界模型”一词由此诞生。
遗憾的是,当时神经网络并非人工智能的主流方向,加之技术条件限制,该模型表现并不突出,“世界模型”这一名词在此后多年传播有限。直到2018年,施密德胡伯及其合作者发表题为《世界模型》(WorldModels)的论文,这一概念才被更多人熟知。
这篇论文之所以在多年后引发关注,原因多方面:其一,“深度学习革命”已经发生,基于神经网络的模型更易获得认可;其二,论文中的世界模型在性能上显著优于20世纪90年代的版本。但或许更重要的,是文中那幅漫画:一个人正在骑车,而他脑海中也浮现着一个骑车的人。虽无一字,却生动呈现了“世界模型”的核心——人在行动的同时,“内部世界”正模拟行动的可能结果,并据此指导行为。所谓“一图胜千言”,在人工智能领域同样适用。
随着“世界模型”思想被接受,众多研究团队投入到相关模型的开发之中。其中,谷歌DeepMind团队无疑最引人注目。早在2019年,他们推出了基于模型的智能体PlaNet,能够直接从图像学习内容,构建世界模型,并预测后续图像走向。测试显示,它只需观察前5帧,就能在给定动作序列的条件下提前准确预测接下来50步的发展。
2020年,DeepMind在PlaNet的基础上推出改进版Dreamer模型,引入递归状态空间模型(RSSM)等新技术,使其在预测与模拟性能上有显著提升。进入“生成式AI革命”阶段,尤其是在OpenAI发布Sora之后,DeepMind开始将世界模型思路应用于高质量视频生成,而Genie正是这一工作的产物。与Sora相比,Genie系列在视频精细度与流畅性上略有不足,但因其基于世界模型构建,交互性远优于Sora。这一特点,使其应用潜力大大超出视频生成范畴。
世界模型的技术实现
从本质上讲,所谓世界模型,其实就是AI的“理解引擎”。它的核心原理,用一句通俗的话概括,就是让机器先在“心里”排练一遍,再付诸行动。那么,如何实现世界模型呢?虽然技术细节十分复杂,但总体上可以分为几个主要环节。
首先是表征学习(RepresentationLearning)。在模拟现实阶段,世界模型并不需要额外的数据输入,但在构建阶段,相关数据是必不可少的。这就好比我们在大脑中想象世界之前,必须先对世界的基本结构有所了解——而要做到这一点,就必须先用眼睛看、用耳朵听,再将这些信息转化为大脑可处理的电信号。同样地,在构建世界模型时,AI需要通过传感器从外界获取各种数据输入,这些输入可以是文本、图像,也可能是声音或视频。接着,AI通过“表征学习”过程,将这些输入压缩成机器能够理解的“内部语言”。在不同应用需求下,“表征学习”会使用不同技术。例如,在学习连续潜在空间时常用变分自编码器(VAE);在从未标注数据中提取有意义的视觉特征时,则会用到自监督视觉模型。
接下来是动态建模(DynamicModelling),这一阶段要回答的问题是:“如果我现在采取某个动作,比如前进一步,世界的状态会发生什么变化?”AI需要基于已有数据和先验知识,不断对可能的未来场景进行模拟。难点在于准确刻画现实世界中的物理规律。众所周知,传统机器学习多半学到的是相关性,而非因果关系,这在模拟中容易出错。例如,按照万有引力定律,物体被抛出后会在重力作用下下落。但如果AI的训练数据只包含抛掷羽毛的情景,它可能会错误地“学习”到物体不会下落,而是漂浮空中,从而在模拟中产生荒谬的结果。解决方法之一,是在模型结构中直接嵌入物理规律,例如依据万有引力定律和空气阻力公式设计损失函数,将其作为训练约束。另一种方法是从数据入手,确保训练样本涵盖多样化场景——既包括抛掷羽毛,也包括抛掷铅球。AI在多样化的样本中便可归纳出更普适的规律,实现更准确的建模。只有当AI“学会”并内化了物理定律,构建出的模型才具有真正价值。
第三个环节是控制与规划(ControlandPlanning)。在这一阶段,AI基于世界模型对现实进行模拟,并在众多可能方案中寻找最优策略。以躲避汽车为例,这一步就是在成千上万种闪避方式中找到最优解。不同场景下,控制与规划的方法各不相同。例如,在早期模型中,蒙特卡洛树搜索常被用于寻找最优策略;而在PlaNet、Dreamer等知名世界模型中,则通过基于模型的强化学习(Model-basedRL)在潜变量空间中进行多步规划。有些模型还会在策略优化的同时,反向优化“内部世界”本身,实现模型与策略的双向提升。
最后是结果输出。顾名思义,这一环节的任务是将模型“想象”的结果以可见、可听或可感的形式呈现出来。对于许多世界模型(如本文开头提到的Genie)而言,这一步至关重要。最常见的输出形式是视频或图像序列。实现这一目标,需要将“表征学习”过程反向执行——将AI内部的表征还原为像素。早期常用基于像素的生成模型,如卷积神经网络(CNN)解码器或自回归模型。较新的方法多采用基于潜在空间的渲染:先在低维潜在空间生成内容,再解码为像素,其效率远高于直接像素生成。如果目标不仅是“看得见”,还包括“听得到”甚至“可触摸”,则需引入更多模态的生成与渲染技术,这里不再展开。
世界模型能做什么
世界模型的出现,究竟能为我们带来什么?如果说过去的AI擅长的是“计算”“识别”或“对话”,那么世界模型则为AI打开了一扇新大门——它不仅能够“看懂世界”,还能够主动“在世界中行动”。这种能力,使它可以被应用于多个不同场景。
首先,是与“具身智能”相关的领域。这里所说的“具身智能”范围更广,既包括拥有真实机械结构的机器人,也包括虚拟游戏角色等任何具备“身体”的智能体。一旦智能体有了身体,它就可以主动移动、操作和试探。理论上,我们可以让它通过这些行动不断学习,像婴儿通过抓、摔、跳、爬来探索世界规律一样。然而在现实中,这种探索往往成本高昂,甚至存在破坏性风险,因此在实践中并不可行。比如,虽然理论上可以让机器人通过试错学习躲避汽车,但在真实环境中,只要出现一次错误,就可能导致严重损坏,学习自然无法继续。
在这种情况下,世界模型为智能体提供了一个安全的训练场。AI可以在其中反复尝试各种策略,直到找到最佳路径,再回到现实世界时,它已经是“经验丰富”的行动者。显然,这种训练方式相比传统方法不仅能显著降低成本,还能避免大量不必要的事故。施密德胡伯曾将这种在世界模型中进行训练的方式形象地称为“做梦”(dreaming),这个比喻恰当地刻画了它的特点。
其次,是“数字孪生”领域。数字孪生是指为现实世界中的实体(如工厂、城市、港口)等创建高度还原的数字副本,以此实时同步数据、预测变化。过去,即便数字孪生做得再逼真,它也只是一个被动的模型。而有了世界模型的介入,这个孪生体就能主动模拟未来、预测问题并实时响应。它不仅可以预警设备故障、识别仓储流程可能的拥堵,还能提前给出优化建议。将世界模型应用于数字孪生,不仅能显著提升自动化水平,还能实现“感知—预测—决策”的一体化跃迁。
第三,是教育与科研领域。科学家可以利用世界模型构建虚拟物理实验室,更精确地预测液体流动、粒子运动或电路反应;教育者则可以打造交互式虚拟课堂,让学生在模拟环境中亲手实验、探索知识。随着世界模型的加入,知识生产与传播的效率都将得到显著提升,整个知识产业链有望实现优化升级。
第四,是游戏和娱乐领域。在这里,世界模型就像一台自动生成可玩世界的引擎。玩家不再受限于预设场景,而是可以根据自己的行为、兴趣和指令,让AI实时生成全新世界。同时,虚拟世界中的NPC将具备更高的智能水平,与玩家进行更丰富、自然的互动,从而大幅提升游戏的沉浸感与可玩性。
如果我们把视野放得更远,世界模型甚至可能成为“虚拟社会”的基础设施。一个高度发达的世界模型,或许能够支撑数十亿人同时生活、交流和建造的数字世界。在那里,每一个人的动作与决策,都会被模型合理接收、反馈并推动演化。那时,世界模型带来的将不仅仅是游戏或模拟,而是一种全新的存在方式。
世界模型背后的隐忧
科技的每一次突破,都是一把双刃剑,世界模型也不例外。当它让AI不再只是识别现实,而是能够“创造”现实时,随之而来的伦理与治理问题正逐渐浮出水面。
第一,世界模型可能进一步模糊真实与虚拟的边界,引发“后真相”危机。它生成的内容不仅符合物理规律,还能与用户深度交互,带来的“真实感”远超当前的AI生成物。在这种情况下,“有图有真相”甚至“有视频有真相”的时代将一去不返。一旦被用于诈骗、造谣或政治操纵,其社会危害将极为严重。
第二,世界模型可能成为行为操控的工具。它不仅能建构环境,还可以通过环境反向影响用户行为。由于虚拟世界足够逼真,构建者完全可以借助物理布局、奖励机制、剧情走向等方式,潜移默化地引导用户做出特定选择。在这种情况下,人们在AI世界中的“自由选择”可能并不真正自由。如何抵御商业诱导、政治宣传和极端意识形态的渗透,在虚拟幻象中守住自我,将成为一大挑战。
第三,世界模型可能加剧人们对虚拟世界的沉迷与对现实的疏离。它能够构建一个巨大的“智能乌托邦”——既与真实世界一样真实可交互,又比现实更美好、更有回报感。在那里,人们可以轻易获得完美的社交关系、理想的职业和永恒的胜利感。然而,当沉浸其中的快感不断累积,人们面对现实的意愿和能力可能逐渐削弱,甚至丧失在现实世界生存的必要技能,最终被困于虚拟世界。
第四,世界模型可能放大偏见、歧视与社会固化。为了构建逼真的虚拟世界,它会大量参考现实世界的数据,从而吸收并重现其中根深蒂固的偏见。在AI的放大效应下,这些偏见不仅会被复制,还可能通过互动灌输给用户,使错误观念在潜移默化中得以强化。
第五,世界模型的责任归属与治理缺口亟待关注。当模型变得足够复杂时,其生成的内容与交互效果往往超出单一开发者的直接控制。这带来一个棘手问题:一旦虚拟世界出现伤害性后果,责任应由谁承担?例如,用户在虚拟世界中受到心理伤害,或被诱导做出危险行为,责任在模型构建者、平台运营方,还是用户自身?又如,当AI在虚拟训练中学会不良策略并在现实中重现,应追责于模型设计者、应用方,还是数据提供者?这些问题目前尚无明确答案,但随着世界模型的普及,迟早必须直面。
综上,世界模型虽具有巨大的应用潜力,但其伴生风险同样不容忽视。唯有提前建立伦理、法律与技术的多重防护,才能确保这项技术真正造福人类。
世界模型是通往AGI的必由之路吗
世界模型之所以在近期引发高度关注,除了其潜在应用广泛外,还有一个重要原因:不少人工智能专家认为,它才是通向“通用人工智能”(AGI)的正确道路。Meta首席AI科学家、2018年图灵奖得主杨立坤(YannLeCun)多次公开表示,世界模型不仅重要,而且几乎不可或缺。他指出,当今的大语言模型(LLM)虽能在语言空间中生成连贯文本,但从本质上看,它们缺乏对现实世界的连续表征和物理一致性推理能力。人类之所以能在复杂环境中高效学习与适应,关键在于能在大脑中构建对真实世界的模拟,并在内部模型中进行“离线思考”。这种能力不仅显著降低了试错成本,还能帮助我们更好地应对未知情境,实现知识的跨领域迁移。从目前来看,只有世界模型能够模拟人类的这一能力。因此,如果希望AI的能力接近甚至超越人类,世界模型或许是必经之路。
杨立坤的观点在AI界收获了不少支持,但也遭到同样多的质疑。一部分强调“端到端学习”和“规模驱动”的研究者,对这一观点持谨慎甚至怀疑态度。在他们看来,尽管世界模型有其价值,但AGI未必需要显式的世界模型,更谈不上是“必由之路”。例如,Deep-Mind创始人、2024年诺贝尔化学奖得主德米斯·哈萨比斯(DemisHassabis)就指出,大规模无模型(Model-free)方法在一些复杂任务中已取得令人瞩目的成绩——AlphaGoZero、AlphaStar等系统并没有显式的物理世界建模,却在多个领域表现超越人类。因此,通过类似方法模仿、逼近甚至超越人类能力,实现AGI并非不可能。
与此同时,还有学者质疑世界模型本身的发展潜力。他们认为,首先,显式的物理世界建模容易受到建模误差的限制,多步预测中的累积偏差可能严重影响规划质量,从而削弱模型性能,甚至不如普通神经网络。其次,如果目标环境过于复杂,在潜在空间中构建准确、稳定的世界模型所需成本将极为高昂,此时直接依赖强大的策略网络拟合最优行为,反而可能更具性价比。
除“世界模型派”和“反世界模型派”外,还有学者主张中间路线。他们认为,AGI未必依赖单一、统一的世界模型,而可以通过“隐式建模”获得类似能力。许多现代大语言模型和多模态模型在训练过程中,实际上已经学会了某种世界知识的结构化表示——这种表示并非工程师显式构建的物理引擎,而是以海量数据训练结果隐含在参数空间中。这种“参数即世界”的方式虽然可解释性较差,但在推理、预测、规划等任务中依然能展现出一定的世界理解。例如,GPT类模型可以通过多轮对话推演事件逻辑,甚至在虚拟物理场景中给出连贯结果。换言之,即使在模型设计时未预先植入物理规律,它们依然可能通过学习自行抽取这些规律。因此,中间路线派认为,显式物理建模并非实现世界模型的唯一途径。
那么,哪一种观点更有道理?这在很大程度上取决于我们如何定义AGI,以及如何理解“必由之路”。在AI圈内,对于AI的目标本就存在分歧:有学者认为,AI的目标是让机器像人一样思考和行动;也有人认为,目标是让机器像人类一样完成任务,而不必在机制上与人类相同。基于不同的理解,AGI的定义也有所不同:如果目标是让机器像人类一样行动,那么模拟人类构建“内部世界”的能力就必不可少;如果目标只是让机器在任务表现上不逊于人类,那么是否使用世界模型就不是必须。相比一刀切地依赖世界模型,根据任务性质选择最适合的技术路径,或许才是更为务实的通向AGI之路。
结语
几千年来,人类一直在追问一个问题:世界是如何运作的?从古代神话中的创世之神,到近代物理学的牛顿与爱因斯坦;从文学中的乌托邦,到哲学中的“物自体”与“现象界”,我们始终渴望理解世界的规律、命运与可能性。而今天,当人工智能开始尝试“创造”一个世界,它实际上也在加入这场古老的对话。
世界模型不仅是一种AI工具,更是一次对“认知本身”的挑战。它不仅试图再现世界的外观,更力图理解其机制、因果的流动,以及行动与反馈之间的微妙关系。从这个意义上看,无论它最终能否引领我们走向AGI,也无论它能带来多少直接应用,其探索价值都不可低估。
免责声明:本文观点仅代表作者本人,供参考、交流,不构成任何建议。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.