对话Gemini负责人：下一代AGI的三条主线，世界模型负责理解，Agent负责行动，Memory负责进化

这期对话的嘉宾是 Oriol Vinyals，Google DeepMind 核心研究者，也是 Gemini 的联合负责人之一。他和 Noam Shazeer、Jeff Dean 一起，站在 Google 最重要模型工程的中心位置。

如果说 Google I/O 是一次产品层面的集中亮相，那么这场访谈更像是一次模型路线图的“幕后解剖”。Oriol 讨论的不是某个功能怎么上线，而是 Gemini 背后真正押注的几条技术主线：多模态会不会迎来自己的 GPT 时刻，World Model 如何从视频生成走向物理模拟，Agent 能不能从工具调用进化到长期行动，Memory 是否会成为 Reasoning 之后的新范式，以及 Post Training 和 RL 下一步到底该往哪里走。

1. 世界模型不是“更会生成视频”，而是让模型真正理解世界。Oriol 认为，语言模型已经把人类写下来的知识吃得差不多了，但图像和视频里还藏着另一种知识。AI 到现在还没有迎来真正的“图像和视频 GPT 时刻”。

2. Omni 的关键是它开始像一个可交互的世界渲染器。用户可以用语言改变视频里的动作、场景和状态，这意味着视频模型正在从内容工具，走向自动驾驶、机器人和仿真系统的底层能力。

3. 机器人最难是会“碰东西”。抓取、移动、施力、触觉反馈，这些人类觉得理所当然的动作，对模型来说仍然极难。World Model 要真正进入机器人，必须先补上物理交互精度这一课。

4. Agent 的下一步是让模型自己搭系统。今天的 Agent 还依赖人类写好的 scaffolding、多 Agent 分工和任务流程。Oriol 更激进的判断是，未来模型可能会根据任务自动生成自己的工具链和子 Agent。

5. Memory 可能是 Reasoning 之后的新范式。模型不能只在一次对话里聪明，它还要记得用户、项目、上下文和过去的经验。Oriol 更看好“个人知识库/文件系统式记忆”，而不是给每个用户训练一套不同权重。

6. Post Training 的真正目标，不是把模型训练成数学冠军或编程冠军，而是训练出元能力。他最关心的是模型能否学习新规则、适应新环境、从经验中变强。这比某个垂直任务的分数更接近智能本身。

7. 对创业公司来说，护城河是数据、评估和领域知识库。Oriol 的判断是，如果没有资源训练基础模型，创业公司依然可以通过高质量 eval、专有数据和深度场景理解，建立自己的位置。

8. AGI 的门槛正在被不断抬高。Oriol 直言，如果把今天的模型放回七年前，很多人可能已经会说 AGI 到了。但站在今天看，它还缺少最关键的一块：从真实经验中持续学习。

世界模型的多模态学习与纯粹迁移的挑战

Jacob Effron：Oriol Vinyals是Gemini的联合负责人，与Noam Shazeer和Jeff Dean一起。他在AI领域有着非凡的职业生涯，在过去十年里引领了许多Deep Learning的突破。在Google I/O之后能和他坐下来聊聊，真的非常有趣。如果你一直在关注Google I/O，他们基本上在AI的许多有趣领域都推出了一系列产品。所以Oriol和我都聊到了。我们讨论了Multimodal Models进一步进展需要什么，以及如何让这些World Models真正可用。我们讨论了Memory的增长和Memory的重要性，以及未来几年这些进展将如何呈现Reasoning的形态，还有Oriol认为的前进道路。我们还探讨了Scaffolding的现状，开发者们正在构建什么，以及Oriol认为什么会持续下去。能够把创始人和投资者们正在思考的所有顶级问题，一股脑儿抛给Oriol，这真的太有趣了。所以我觉得大家会非常喜欢这场对话。话不多说，有请他——Oriol，非常感谢你来上播客。

Oriol Vinyals：是的，很高兴来到这里，Jacob。

Jacob Effron：非常高兴能请到你。在I/O大会后的第二天，我知道一切都很忙碌，但我对这次采访一直非常期待，因为你是当今最直接塑造模型前沿的人之一。你在Google的工作，显然在昨天I/O发布的那些东西里，几乎触及了人们目前在该领域思考的所有主题，涵盖了这些产品和模型的发展方向。所以我觉得，我们今天的目标就是聊聊这些公告背后的研究，这一切将走向何方，比如RL和Post Training的未来路径，以及你对于整个领域的看法。我想先从World Models开始，因为我认为那部分是昨天发布中非常令人印象深刻的一环，同时也是Google与业内其他公司相当不同的地方。所以，你们昨天在Omni中显然交付了这个极其令人惊叹的World Model。而且，我记得Demis曾多次谈到将World Models视为通往AGI的一条路径。这很有趣，对吧？其他实验室似乎更专注于代码和实现Recursive Self-Improvement。所以我想知道，这种描述是否公允，以及你为什么认为你和你的团队以及Google会有点独特地聚焦在这个World Model领域。

Oriol Vinyals：首先，我想编码或者说自我改进的这个角度，它是在一个有点不同的层面上。你当然可以也相信，这些模型能够重新编程和改进它们自己。而且这也是我目前实际上相当积极在做的事情。但接下来，它们要改进的那个模型对象，无论是Multimodal且更接近的，还是我们所说的World Model，甚至如何定义它都有点抽象。自从一开始，远在Gemini项目启动之前，我们就不仅在做语言，还在做理解视觉世界，以及在视觉、音频、视频等上下文中对词语进行联合建模。所以我认为，这一部分一直是Gemini以及更早我们研究的核心。而我认为也许描述它的一种方式是，语言显然包含了我们关于世界所书写的海量集体信息。这显然带来了巨大的回报，在某种程度上，我们已经把所有被书写下来的知识，以及正在被书写下来的知识，蒸馏到了这些权重之中。

Jacob Effron：我们把它全都放到互联网上了，这确实很方便，对吧。

Oriol Vinyals：没错。而且还有用户带来的效应，对吧？这显然也存在飞轮效应，但与此同时，视频和图像中蕴含着大量的知识。我要说的是，这种情况有点已经发生了，但只是悄然发生。我认为可能会有一个重大时刻，那就是你将如何提取那些如果你看过所有视频和图像就能获得的知识，这些视频和图像我们当然已经在训练混合数据中使用了。但这种知识能否以某种方式为语言部分增加价值和效率呢？我认为我们已经看到了一种建设性的，比如说，Transfer Learning，从一个模态到另一个模态。我们看到了这一点，也看到了泛化能力。但可能我称之为视频和图像的GPT时刻，我不太确定我们是否已经看到了。

Jacob Effron：对于视频和图像的那个GPT时刻可能是什么，你有什么想法吗？或者说，也许你有这种直觉，觉得它尚未达到。

Oriol Vinyals：是的，目前我们训练所有的模态，将它们混合起来，并不断改进训练配方。所以Omni是展示这一进展的好例子，它不仅能够输入视频和图像，我们看到了在长上下文理解等方面的惊人能力，而且我们现在还能够输出视频，同时通过语言以非常自然的方式与之交互、编辑、将各种模态结合起来，这方式感觉几乎、几乎是魔幻般的，对吧？所以这种进步绝对存在。

但也许，其中一个Deep Learning的梦想，而且可能是在Large Language Models出现之前就有的原始梦想是：嘿，我能只训练所有的图像数据而不使用文本吗？这也许是一个艰巨的挑战，但仍然能设法从那个模态或一组模态以及海量数据中提取出所有的意义和细微差别。我们能否训练所有曾制作出的视频和图像，并达到语言模型使用语言所达到的相同理解水平，尽管可能有点肤浅，且缺少因果联系——比如Demis经常谈到的那种。那个时刻我见过了吗？大概没有，而且我们很可能拥有最先进的，或者最先进之一，能混合一切的Multimodal配方。但我认为，这种纯粹的迁移是过去十多年Machine Learning的核心探索之一。

Jacob Effron：我的意思是，在你能谈的范围内我很好奇，你能给我们的听众一些背景，关于在这方面的关键问题还有哪些需要解决，或者当你在思考你正在努力解决以进一步推进这方面的问题类型时？

Oriol Vinyals：描述解决方案空间是困难的，但有一个想法经常被用到，你可以想象从所有视频数据中观察或学习，然后以某种方式推导出，比如说，万有引力定律。就像，你如何仅凭图像来精确描述世界是如何运作。所以问题在于，将语言，或者我们有时所称的这些概念，与你在图像中看到的东西联系起来，而没有显式的语言联系，是相当棘手的，所以你最终会尝试去显式地创建数据集，在图像和视频与某些语言（比如可能是标签或描述等）之间存在某种相关性或联系。但是当然，现在你可以使用的数据量要少得多，因为我们并没有为外面的每一份媒体清晰地描述和转录。所以我认为，这就是以最纯粹的形式提取那些概念，而不仅仅是我们与词语关联的某种语言，这将会非常强大。

而且，在离散表示、Representation Learning方面有很多早期研究。我的意思是，这可能是，我会说，还处于相当早期的研究阶段的事情之一。所以这不是我们可能可以规模化的事情，但我认为这是其中一个，我不确定它是否必要。我的意思是，不管我们是否同意这一点，是另一个问题，但如果它得以解锁，那将是巨大的。

从Omni到机器人的模型落地

Jacob Effron：你提到了"World Model"这个词，以及它被到处使用的情况，显然Omni是作为一个World Model来定位的。我很好奇，你是如何看待这种分类的？毕竟，你们显然已经有好一阵子非常出色的视频模型了，对吧？是什么让Omni成为了一个World Model，它和你们一直在研发的那一代视频模型又有什么不同？

Oriol Vinyals：我想World Model的一个纯粹方面会是Representation Learning。你可以想象，我们接收这些模态，比如视频（它们是图像序列，或者甚至只是图像），然后将其压缩为一组概念，以及这些概念中包含的运动、物体等等，这差不多就叫做Representation Learning。它以非常紧凑的方式对世界进行建模，压缩掉了那些可能不相关的东西。

那可能是一种更经典的定义，但也可能并不是我们在与Omni交互时所意指、所见或所感受到的全部。你在那里看到的，更多是你能真正改变视频的行为方式，或者通过你要求进行动画处理的一张初始图片，来生成各种类型的视频。你会明确要求所有的动作，甚至是像"向前移动"这样的Action，并且你可以看到它被精确地模拟出来。所以这更像是World Model本身充当了一个世界的渲染器，你可以通过语言真正地改变它。现在有了这个对象，除了作为一个很酷的产品可以让我们非常丰富地生成各种不同的动作或场景等等之外，它还可能有意义地增加一个模拟的维度，这能让我们在真实世界中行动之前，进行预测之类的事情。当然，对于这种3D或World Models，显而易见的应用就是自动驾驶汽车或机器人技术。

Jacob Effron：这似乎与机器人技术密切相关。感觉好像，每个人仍在试图找出模拟数据、各种形式的遥操作数据和第一人称视频数据之间的正确数据配比。但看起来，随着这些模拟不断改进，将它加入到数据混合中变得越来越有吸引力。我很好奇，这项工作是会与你们正在进行的更广泛的机器人研究工作直接交汇吗？以及，你如何看待为了将机器人动作附加到这类模型上，真正需要的是什么？

Oriol Vinyals：这里也存在一种美妙的联系。当然，如果我们获取更多由机器人采集的数据（尽管这显然更昂贵或更耗时，但我们肯定正在投资于此），这些数据可以进入模型，增强World Model本身的能力。而另一个方向，也许就是你刚才问的，就是现在我们可以模拟，可以创建大量不同的场景，让这些机器人或其他1D、3D实体能在其中进行训练，而无需承担物理世界的成本和时间延迟，对吧？为了让后者更好地运作，这仍然是一个非常开放的问题。还有各种关于迁移的问题，但随着这些模型变得越来越强大，显然会存在一个临界点，事情开始变得值得去做。我们可能会看到机器人技术的加速。实际上，在硬件领域，我们确实看到了大量的投资。事情正在加速并取得进展。

但为了让World Models变得有用，至少以我有限的知识来看（不过我当然能够与这些系统交互并观察它们），即使是抓取一个物体所需要的精确度——这对人类来说理所当然——比如视觉、它在你手中的确切感觉（这是一种我们目前显然甚至都没有数据的模态），然后是精确的力，物体会如何移动，这些都需要非常、非常准确。这就是差距所在。也许还需要一些创造力和研究，以及多年来在机器人领域的大量投资。但这是有希望的。在某种程度上，或许不是在精确的运动控制层面，而是在规划和总体层面，我们将开始看到这些模型如何加速我们在机器人探索上的进展。

Jacob Effron：这些模型一个巨大的部分是，通过消费大量视频数据，内隐地学习物理。我记得你提到重力是人们寻找的一个典型例子。你离这些模型这么近，有没有什么直觉，觉得这何时会成为World Models内部一个已经解决了的问题？

Oriol Vinyals：是的，这是个好问题。实际上，你让我想到了评估。比如，如果你训练了一个非常好的模型，你会如何评估它？你可以想象，一旦你加入了语言，突然间那些知识就以某种方式存在于其中了。如果你问一些关于重力的基本问题，你当然可以通过在网上读过相关解释等等来回答它们。所以你需要以某种方式，将重力这个概念（它可能存在于World Model中，也可能不存在）与解码出的解释联系起来，起初可能是一些基础的解释，之后甚至可能推导出方程式之类。你如何能构建一个评估？据我所知，我认为我们还没有从这个角度思考过这个问题。

在无监督机器翻译方面确实有很多早期工作，你会尝试翻译成一种在训练中从未见过的语言，并且你可以对齐表示。所以可能有一些想法，你有一个可以说出语言的语言模型，或者你可以从中解码。你有一个World Model，它会创造这种概念层面的理解，然后将两者对齐。

你知道，有一些论文，我是说这些都是比较老的论文了。我记得有一篇是Stefan Gauss等人的，是2014年的。然后你可以尝试开始解码那个，将其转化为一个评估似乎就成了很简单的一步。但同样，这些评估方法需要从应用的角度来看有意义。所以最终，你也可以说：我们有一个World Model，我们能从它的表示中解码出，或者，比如说，在一个复杂系统中引发运动吗？那将是另一种间接的评估。所以有很多想法，但评估是如此重要。

Agent进化与模型自编写

Jacob Effron：好了，换到你们昨天发布的其他东西上。你肯定想聊聊Agent，你们在I/O大会上发布了一些非常有趣的消费者Agent。我觉得这特别有意思，因为至少从外部来看，这像是你们在2024年通过Project Mariner和一些其他Compute Use工作所探索的东西的一个真正改进版。所以确实感觉在能力上有了一个真正的阶跃变化。因此，我很想听听你谈谈促成这种变化的研究突破，以及人们应该如何思考这些Agent现在能做什么、不能做什么。

Oriol Vinyals：我们知道那将是一个非常重要的模态——Actions，对吧？在一个数字计算机上执行动作并改变其状态。然后我认为，随着你不断演进并使模型变得更好，你会开始意识到，先把模型做到非常好，然后专注于系统，围绕模型构建一个系统，再尽可能地联合优化系统和模型，如此往复。谈到是什么创造了能力的增量或提升，这主要是关于专注，关于安排发布顺序。在某种意义上，模型的能力也需要达到一定的水平，然后你才能去设想下一个阶段的能力，设想模型接下来可能做什么。

Jacob Effron：我想关于消费者足迹，有一件非常有趣的事情就是，人们想用它处理的事情范围实在太广了。所以，我想知道，从目前来看，以及你如何看待它随时间演变，模型加系统的那部分工作，相对于人们想解决的问题的子类别来说，它有多定制化？还是说，它是极其通用的，就像你只是在优化一个系统与模型的组合，这个组合能处理你在Spark中几乎任何想做的事情？

Oriol Vinyals：总是有一个顺序，先专注于某个可控的、你已经知道非常有用的东西。如果你看看Spark，它能接触到为协助你安排和规划一天，甚至思考你该如何处理不同问题所需的信息，因为它拥有如此丰富的Context。所以，围绕你非常关心的东西，略微收窄系统构建范围，是有用的。但如果你回顾Machine Learning和Deep Learning的历史，我们总是从通用组件开始构建。并且存在一个重大假设，这又有点回到了World Model的观点。

实际上，在所有数据上联合训练，肯定比仅仅狭隘地专注于单一领域要好。所以，即使从建模的角度看，这一点也非常明确。但即便从系统的角度看，一个相当通用的系统，根据你与之交互的方式，你当然可以把它放进这样的空间里：这个用户想做这件事，但我拥有所有这些能力。让我在训练时就直接搞清楚该用哪些，而不是专门为它去构建，而是构建通用的东西。然后，专业化通过一层智能发生，也就是模型的智能和系统的通用性。我认为这一点已经相当明显了。然后有时在实践中，对其进行限制或使其更高效，仍然有意义，将专用变为通用。

我们已经看到这种情况在持续发生，甚至从架构上就是如此，对吧？Transformer最初是一个机器翻译神经网络，现在它无所不包，从Omni到控制你的电脑。所以，我认为这是我期待的一步。

Jacob Effron：这些年来你一直公开谈论“苦涩的教训”。我很好奇，当你放眼整个领域时，你是否看到有些地方目前并没有遵循它，或者，基本上，当你观察时，你是否看到一些结构或巧妙的Scaffolding，你认为规模最终会把它们冲刷掉。

Oriol Vinyals：是的，有一个我感兴趣的领域，已有一些相关研究发表，那就是，我们现在通过编码在模型周围构建的、有时是复杂的Scaffolding系统，比如多Agent、子Agent、委托、超长时间运行。那个系统本身是一段代码，最终模型自己可以实时地编写它你可以。想象，不是只有一个非常通用的系统，而是可能根本没有系统，只有模型能够根据它被要求做的事情，去编写那些系统。

Jacob Effron：就像是为了一组问题，生成几乎最高Token效率、最高质量输出的子Agent集合和它周围的一切。

Oriol Vinyals：是的，正是如此。我的意思是，我们在过去一年半左右看到的一种范式转变，当然就是能够在Token空间中进行长时间推理的Reasoning模型。但当然，最终变得更加重要的是，你应该推理多久？你应该基于用户可能提出的问题的复杂性，来增加那层智能吗？这将使它更高效。所以我认为，围绕这些系统所做的工作，将会有一个层面，我不确定是完全从头编写合适，还是某种自动化机制，会聪明地为正确的任务创建正确的Scaffolding。

Jacob Effron：在Agent方面，我认为有很多人都在摆弄和试验，构建这种长时间运行的Agent。而且我认为，很明显，他们在试图让这些Agent在上百个步骤中保持稳定时，会遇到各种各样的问题。你如何看待要达到进一步的通用可靠性，需要些什么？

Oriol Vinyals：我认为回答这些问题最显而易见的方式，就是改进模型周围的Scaffolding，以及模型本身。如果你想想如何训练一个神经网络，它是在某个任务分布或模态分布上进行训练的，或者学习如何将不同的词连接到视频等等，对吧？所有这些都是关于你如何训练、预训练或后训练这些权重。所以，如果你想，有一种新的工作类型或模态，需要这些超长时间运行的系统，需要从这些极长的上下文中学习，而我们一直在创新并推动这一点，1.5版本就是我们长上下文的突破。那么，模型显然也会迎头赶上，去满足用户和那些未来主义的使用场景。这有点像研究者的挑战，对吧？预测什么是可能的，然后不仅专注于构建一个对此鲁棒的系统，还要考虑当你把所有的上下文和所有疯狂的操作都塞进去时，如何让权重变得不那么不开心或者更开心？而不是仅仅寄希望于从诱导该行为的Prompt中泛化。

记忆与持续学习

Jacob Effron：每个人都在试图弄明白的一个模式是Memory，对吧？以及如何在这些Agent之间解决这个问题。对于这个问题最终会在哪里得到解决，你有什么想法吗？

Oriol Vinyals：是的，从很早之前开始我就认为Memory非常迷人。你可以这样想，我认为最初我们这样描述它，这或许源于我的个人偏见，因为我曾研究过大脑中的Memory系统并取得了博士学位。关于Memory有几种思考方式，但我喜欢的一种更简单的方式是：工作Memory，即那些由于我们正在做的事情或讨论的内容而非常鲜活的事物；然后是所谓的情景Memory，那是一种你可以访问的检索系统，它可能不那么精确，上下文更长，或者可能拥有你或我完整关心的、我们积累的所有体验的全部上下文。

现在，Memory的层次不止两个，但这样按层次思考很有用。计算机也是如此，有L1、L2缓存等。所以，谈到模型，我认为工作Memory，因为有了Transformer等等，我们有了一个非常强大的机制来使用那种Memory，可以动用数百、数千、数百万个Token来修改那个Memory，然后用它做出惊人的事情，证明复杂的、金牌级别的数学问题等等。而我认为我正看到许多动能的是，如何巩固那些发生在之前不同交互中、或者在某个可能比工作Memory所能记住的还要长的交互过程中发生的事情，我们如何存储那些知识？通过不同的实验。

我认为，其他的，比如现在标准叫法是我们称为技能的东西，但更通用的是，我们确实可以访问一个Memory系统，因为它是一个Agent，那就是计算机本身。所以你可以开始思考，将你的想法写入文件，构造成目录或文件夹，并在你与同一个用户进行多次会话或在一个非常非常长的会话中这样做。目前这种机制相当不错。但话说回来，我不认为模型的权重已经赶上了这一点。

把这种知识库添加到一个文件系统中，或者任何你可以用基本的检索机制修改和读取的存储格式中，这是否是添加？这已经非常强大了。然而，我认为还有很多东西有待开发。我想，我们很多人都称这种形式为某种形式的Continual Learning。但我希望起作用的机制，它显然会变得越来越好，是这种文件系统式的、非参数化的形式。

比起将这些记忆整合回权重中，这种方式要更方便一些。因为即使从实际的角度来看，我们试图大规模地提供同一个模型。所以，如果必须为不同用户提供带有不同记忆的模型，那将会是非常痛苦的事情。因此，即使从实际角度出发，我认为我们将会看到更好的评估方法和这些模型在交互中积累知识的方式。我认为这可能也是一种范式转变，某种程度上类似于我们在大约一年半前看到Reasoning出现时的情况。

Jacob Effron：这是否意味着每个人都有模型，然后它们拥有各自独特的文件系统，还是说你觉得随着时间的推移，人们拥有的模型，其权重会因其做过的事情而有所不同。

Oriol Vinyals：正如我所说，权重不同会很麻烦。

Jacob Effron：很难部署？

Oriol Vinyals：是的，确实会很麻烦。如果那是最好的方式，那我们总会找到办法的。去设计专门的硬件，当然我们也在硬件设计上投入了大量资金，可以说，那会让你拥有更个人化的权重。但至少，你当然会拥有可能是你个人的专属知识库。你甚至在过去几年里，已经在LLM领域看到了许多这方面的例子。然后或许还有另一层知识，它对于给定模型的所有用户来说更通用，你可以想象能够访问它，并在不触碰权重的情况下丰富或增强模型能力。这非常有趣。而且，能做到那一步就太棒了。

Jacob Effron：我感觉Continual Learning一直是热门话题，人人都在谈论它。你已经看到一些有趣的例子，一些知名人士从OpenAI或其他地方出来创业，说，嘿，我相信你可以继续扩展我们现在做的事情。我认为，没人否认那些Scaling Laws仍然存在，但他们在说，感觉你需要一种几乎全新的研究赌注，才能实现真正的Continual Learning。而且，也许在那种持续改进核心LLM的路径之外去追求它，是有道理的。我很好奇你如何看待这整个动态？还有，你对此的反思。

Oriol Vinyals：我很早就加入了Google Brain，然后在2016年转到了DeepMind。此刻，我认为这里存在着挑战和机遇。你显然想去研究一些研究问题，这些问题可能不契合“未来三个月内就要把它放进下一次训练运行”的节奏，但同时，这也不能和LLM的发展方向完全脱节。

我们正在改进Gemini。看着Flash在仅仅几个月前还表现不佳，现在却超越了，这很令人着迷。而且这种情况持续发生，保持在能力的最前沿，这可能会启用或禁用某些研究，同时也为研究提供了保护。当然，这不是以年为单位的事，事情发展很快。但将这两者结合起来，正是构建这些组织的魔力所在。当然，我们所有人都有不同的目标，需要想办法弥合它们并识别机会。这需要一点功力，对吧？不能什么都做，组织太大了，但要有一些直觉，然后能够有时急切地把这些想法拉进来，因为感觉就该这么做。所以，这实际上定义了那个层面的组织。

从研究的角度看，我可以看到，从机器人技术的投资，到LLM的巅峰，再到那些要么已成功、要么将会成功的研究。但这很有挑战性，资源是受限的，所以这是一个有趣的权衡，并非总能做对。但我认为，这是一个引人入胜的、不同角度的研究，不仅仅是那个能发下一篇论文或进入下一个模型的想法，而实际上是如何组织这整个组织。这非常吸引人。

Jacob Effron：我的意思是，对于像你这样角色的人来说，这感觉像是最有趣的问题之一，你很难不对如今用这些模型能推进的如此多的事情感到兴奋。而且显然有太多事情在发生。我感觉，即使像OpenAI这样的组织，他们也在“我们应该去做，AI这边有太多唾手可得的成果”和现在这种更聚焦的时刻之间摇摆，现在更像是，天哪，我们必须真正搞定代码并赶上Claude的代码能力。我想知道，你如何看待这种权衡：是专注于一件事，让所有人都朝着那个方向划，还是可能面向更广泛、每个方向都超级有趣的领域。

Oriol Vinyals：你知道，Google因几个原因处在一个独特的位置。首先，我们确实在Gemini上拥有很广的覆盖面，目前它实际上驱动着一切，但我们有优势。组织中其他部门的人们已经完全接受了LLM时代，所以某种程度上，他们拿着模型，然后可能会去做些事情。但如果你觉得那不是推进前沿能力的下一步，那么，你可以放心，有一个非常优秀的团队会把模型带到它该去的地方。

同时，我们从硬件采购中获得稳定性，显然，鉴于我们的营收流等等高度垂直整合，我们也有资本投入。所以你可能可以在某些研究领域更进一步地冒险，当然这需要品味。所以你拥有这种状态，它不是聚焦，但因其组织方式而可规模化。然后你仍然可以投资于创新，这一直是我们所做一切的核心。如果我看看我曾待过的两个组织，Brain和DeepMind，现在合称Google DeepMind——鉴于我显然在不同时期都在两边待过，我很欣赏这个名字——那么我认为，我们的DNA里就有着持续创新的基因。但与此同时，我认为Gemini创造了一种聚焦和统一的力量，这非常了不起。

我和Jeff已相识多年，曾一起纯粹为了乐趣去旅行，这非常有帮助。所以我认为那段时光非常特别。而且我认为，那个中心，也就是核心建模工作，非常专注于前沿能力，然后拥有这些输入和输出，这是一种相当合理的方式，既能保持专注，又能利用一些探索，而这些探索可能仍然需要，也可能不需要。我们是否需要World Models？如果我们能把它做出来，那肯定需要。如果做不出来，也许也没关系，对吧？但适当下注总归是好的。

RL泛化、元能力与AGI的未来

Jacob Effron：说回到模型方面。或许换个话题，聊聊Gemini模型本身，以及未来的发展路径。我记得你之前说过，Post Training基本上还是一片完全的“绿地”。我觉得我们已经看到，Post Training和RL在编码和数学领域取得了惊人的进步。就在我们录制这期播客的几个小时前，刚有一个新的数学问题被解决。大家都在试图弄清楚的是下一批RL会真正起飞的领域有哪些特征，我很好奇你的直觉。感觉在编码和数学方面，我们正处在一个疯狂的指数增长路径上，很想听听你对哪些其他领域是良好适配的直觉。

Oriol Vinyals：是的，这是个好问题。我必须说，这些模型在很多事情上已经非常出色了，所以很难武断地说“这个完全不行”，对吧？几乎通过Prompt，再加上一点巧妙的Prompt，也许构建正确的系统，很多惊人的事情，至少在我称之为数字世界里的“数字AGI”方面，已经非常令人印象深刻。所以我认为，当我说Post Training是一片绿地时，与其说是关于某种能力，感觉离达到“这相当智能、相当先进”的可接受水平还很远，不如说更多是机械地观察那些利用了模仿学习或预训练加后训练的其他工作，以及在计算投入上，预训练相比今天模型所使用的相对较少的后训练投入，差距有多大。

原因其实很清晰，但不确定是否容易解决。事实是，即使你取一个非常狭窄的领域，比如用强化学习玩围棋游戏。你现在有一个可以下棋的系统。它下了几步棋，游戏进行了几步之后，那个情境、那盘棋局就变得独一无二了。我的意思是，你之前从未见过那个特定的盘面。所以，环境的复杂性随着你的对弈，使得生成训练数据几乎是无限且免费的。就像，你下了几步，现在就处于一个新局面。因此你可以从中学习。你玩得越多，花在RL算法上的时间越多，获得的知识就越多。这就是我们在游戏强化学习时代看到的情况。

而在LLM中，我们是数据受限的，而无限复杂性的源头是什么？这一点还不那么清楚。有一些想法，但我认为，破解那个配方可能会是件大事，至少从算法的美感上来说是如此。如果能看到它现在也在LLM中起效，会比不知道它过去如何起效更令人满足。那么，这必要吗？能力还没达到吗？这很难说。但既然你问是哪些能力，我认为就模型所做的事情而言，最让我着迷的是我称之为“元能力”的东西。它们不是数学或编码。它们更像是智能的特征或属性，以及这些模型是否能做到。所以实际上，持续学习或从经验中非常高效地学习的能力，那会是一项上下文学习，我们过去称之为元学习等等。

这是一种我可以某种程度上衡量或感知的能力，而且可能还不是非常非常好。例如，指令遵循当然是一项能力，你甚至可以说它是终极能力，因为如果我让一个模型做某件事，它要么遵循那个指令，要么不遵循。但我的意思是，尝试去看那些不太关乎某个特定领域或垂直行业，而更像是“智能行为”的能力。所以，学习和适应的能力，而不是成为职业选手、国际数学奥林匹克金牌得主之类的能力，才是我在每次训练新模型时，看到新发布和拿到手的模型时最着迷的地方。

Jacob Effron：你有没有一个常用的方法来测试这个？

Oriol Vinyals：我喜欢游戏，所以我通常会在上下文中定义一个新游戏。这是一个相当经典的做法。当然，你需要小心，因为如果那个游戏已经在权重里了。

Jacob Effron：如果其他任何人把那游戏放到过互联网上，你就有麻烦了。

Oriol Vinyals：但我记得，应该有一个评估方法。虽然那不完全是我的做法。

Jacob Effron：实际上，我意识到我问你这个问题有些无礼，因为这个播客之后会公开，然后下一个模型就会知道怎么做了。

Oriol Vinyals：没问题的，也许吧。是的，希望我们需要破解World Models，对吧？除非它被完全转录，我确信它会。所以也许我们甚至不需要那样，但我真的很喜欢一个评估，我认为那个评估实际上非常古老，远早于LLM，大概是在2015年之前。那个评估很简单。你给出一个指导手册，我记得是给《文明》这个游戏的，然后，你应该要能够玩它，对吧？所以我喜欢那种风格的评估，你可以用不同方式创建它，但这是我用来测试模型的一种方式。而且它们做得不是那么好，尤其是当游戏变成了我刚发明的东西之类的时候。而且这种能力是双重的。

首先，你能理解指令并据此按指令玩游戏吗？但还有另一个方面，那就是随着你玩游戏，你会学着玩得更好。所以，你能不能在实战中看到这种情况发生？这令人印象深刻。但话说回来，如果你让一个游戏的分布变得非常奇怪，它可能是真的，但仍然不在训练集中，这个特定的测试对模型来说并不容易通过，对吧？还有很多其他测试，但我真的很喜欢这一个，而且游戏以一种有用的方式，但你又完全不会在这个游戏上训练。这不是关于只训练下围棋的Go，而是正好相反。但我喜欢从能力的角度进行这种思考。

Jacob Effron：我的意思是，显然你们已经投入了大量的努力。你知道，游戏曾是类似可验证领域的首个典型例子。而现在，编码和数学领域也有了。我想知道，这个领域一个悬而未决的大问题是否是，我们能在多大程度上看到RL的泛化能力？感觉有时候这些模型在我们进行RL的领域上攀登得非常出色，你应该比我更清楚是否看到了那一点随后流向了模型的其他方面。但某种程度上，感觉这几乎是一个有趣的时刻，我们谈论过最通用的“苦涩的教训”时刻。这是一个在特定领域找到数据，针对该数据进行RL，并改进模型的时刻。我很好奇，这算是对当下正在发生的事情的公允描述吗？还有，你看到那种泛化的迹象了吗？

Oriol Vinyals：是的，人们努力寻找那些能确实引发深度推理、并且我们能从中看到泛化的难题来源。实际上，推理模型主要是在，比如说，编码和数学上进行推理。但接着你会看到它们是如何推理关于任何问题的。你知道，我最近刚搬回美国。我问了一大堆关于搬家、税务等等的问题，你可以看到推理相当不错，很难相信它曾被训练过这类问题。所以我们确实看到了泛化，并且在创造性地尝试获取更多能引发深度推理的数据，还有深度的Agent行为。是最近我们看到的改进的一部分，就是找到那些来源。只局限于可验证性肯定是不尽人意的，因为大多数时候，对于我想让模型做的事情，即使我有全世界所有时间，我也写不出一个验证器。

所以，我感觉创建解决方案和评估解决方案之间存在一种不对称性，评估方案确实比创建方案更简单。可以说，如果你思考一些论点，例如NP难题，为它们创建解决方案非常困难，但验证却很简单，这给了我希望，即模型自身将能够进行判断，即使没有完全可验证的方式来判断一段代码是否创建了一个漂亮或引人入胜的游戏。所以我认为这是一项非常有趣的研究，而且实际上，我们已经看到这类想法产生了很大的影响。所以我们做得越多，就能在越多的领域上进行训练。问题在于，你真的需要那样做吗，还是仅仅专注于某些数学和编码问题，就足以激发出这种“变得智能和解决问题”的元能力？我不知道，我是说，两种可能性都存在。

Jacob Effron：你直觉上倾向于哪一种？

Oriol Vinyals：我很愿意相信你需要在一个广泛的分布上进行训练，并且那应该对模型有帮助。但通过预训练所能获得的泛化能力是如此之强。所以，也许这取决于对“超人”的雄心壮志，或者这些模型所能达到的上限。但归根结底，我感觉在Machine Learning中，在尽可能符合分布的数据上进行训练似乎是可取的。所以，这是研究人员在未来几个月和几年里需要破解的任务之一。

Jacob Effron：我们很多听众和正在创建公司的创始人们都在思考的一件事，就是搞清楚他们应该在多大程度上在模型层工作，还是纯粹在模型之上构建应用。我想知道，一个明显的趋势是，有些公司在模型之上做自己的RL，并表示：有一类特定问题我们可以去解决。或者，甚至可能最引人注目的是，比如Cursor在编码领域，但我们需要去训练自己的基础模型。我很好奇的是，你的直觉是，什么时候你知道这确实有意义，或者什么时候可能没意义。

Oriol Vinyals：我会告诉人们，其价值——我们稍微讨论过这点——在于评估的价值，以及数据，基本上这两者是紧密相关的，其中蕴含着巨大的价值。所以，无论你是否构建自己的模型，因为也许你还处于非常早期的阶段，或者你无法接触到人才、资源等所有东西，非常仔细地思考如何评估你在尝试做的任何事情上的进展，实际上会非常有价值，而且这甚至可能成为一个标准评估，像我们这样的人甚至会采用或监控。当然，数据的价值是巨大的，尤其考虑到我们刚刚讨论的Post Training，以及缺乏足够的数据来运行那种我们几年前可以愉快进行的、长达数月的训练。所以，我认为那里存在机会。

我知道，在这方面，正在构建东西的人们也投入了大量的精力。与此同时，我认为，在模型之上构建，即使模型能力会不断变化——再说一次，我显然不是投资人，不是专业投资者或产品人——实际上，仅仅专注于你真正相信的东西，可能会为你创造一些机会，让你拥有这个领域，理解它，获得用户，达到临界规模。而且，如果那是其他人，比如大玩家们，没有专注的事情，我觉得即使你只做产品上的专业化，哪怕你不做任何其他事情，也有很大的价值可以创造。

Jacob Effron：现在看来，几乎可以肯定的是，早期你先做产品专业化，在模型之上构建，达到一定规模，学习评估方法。我觉得很多这类公司正开始试图弄清楚，我们是应该利用这些来Post Training一个模型，还是做点别的？显然，这样做的权衡是，随着这些模型通用化，能力提升，它们永远不会像最大的实验室那样在广泛的数据上进行训练。所以，你可能就像在跑步机上一样，每隔两三个月，即使你短暂地领先了最先进水平一点，你也可能需要不断地重做。

Oriol Vinyals：是的，但这里又有一个角度，回到了我们讨论过的另一个话题。随着这些模型变得更能持续学习，或者使用一个可能非常复杂的知识库，那么为某个特定应用构建那个知识库，虽然不是像训练权重那样，它更高效一些，但你可能可以为其增添许多独特性，这可能会保护你免受那些没有花大量时间仔细思考它如何与当前模型交互的人的冲击，而那项能力只会变得更好。所以也许那个角度对于游戏中的早期玩家来说，也更具可扩展性。

Jacob Effron：我想，在我们谈到的这么多研究方向上都存在着如此引人注目的前进道路。有哪些能力是你不太确定如何达到的呢？也就是，哪些方面你或许还没看到研究路径，但你认为相当重要？

Oriol Vinyals：我认为对于相当多的能力，我看到了研究路径。我是说，多年来最让我着迷的一个，尤其是在我2016年加入DeepMind时，就是元学习，或者说模型学习的能力。那是一种如此美妙的能力，既然你研究Machine Learning的话。所以这一项是我感觉存在路径，现在有了一些基础，并且它将会持续改进的。但可能有一条路径，我目前不确定它有多实用，那就是人们提到的，“这些模型能真正创新吗？”我认为这部分很重要，因为，当你致力于“你能在Machine Learning里想出新的想法吗？”然后我们实现它们，编码非常出色，部署它们，等等。我们正在对此进行实验。

你知道，很多人都相当程度上在利用我们现有的全部知识，但要以品味去进行创新，这是很难得的，即使对人类来说也是相当特别的，而且说实话，有时是随机的。这不像是“这个人太聪明了”。其实你只是让一万个人去尝试，然后你显然选出了那个做对了的人，并加以颂扬，对吧？所以我认为，那种创新能力对于某些事情，比如自我改进，可能相当重要。然而，甚至尝试去评估它都显然很难，而当某件事难以评估时，可能意味着它也很难在上面取得攀登式的进步。所以，在任何方面进行创新的能力，但具体来说在科学上，是一个我认为还需要更多进展的好例子。

Jacob Effron：显然，我认为Move 37是上一个时代的经典例子。那么，你最近有没有看到什么感觉最接近这个的事情？甚至在我们开始录制之前，我记得OpenAI讨论了他们刚刚解决的那个组合几何问题。

Oriol Vinyals ：如果我从Machine Learning的角度来看，这就是重点——我认为我还没有看到一个模型产生出真正卓越的想法。但我确信很快会看到，因为模型在理解，比如说，一个模型是如何被训练的这方面，表现出了一些洞见和方式，感觉上是超人的，因为从机制上讲，这些模型能接触到我们无法企及的信息带宽。所以，也许那部分已经令人印象深刻了，但我也希望能在idea层面看到同等程度的惊艳，而Machine Learning是我能更准确评估的明显领域。所以，是的，敬请期待。

Jacob Effron：当你思考我们何时能达到这种，对Machine Learning研究产生真正洞见，以及这种递归自我改进的世界的层次时，我很好奇你是如何推理的。那甚至意味着什么，或者你如何想象它随着时间的推移会是什么样子？甚至是一些基本问题，比如“苦涩的教训”是否仍然成立？或者，当我们进入那个世界时会发生什么？我很想听你即兴聊聊这些。

Oriol Vinyals：作为研究者或工程师，你使用这些工具来提高你自己的生产力，使其达到某个效率水平或者某个层次。我们现在已经看到很多这样的例子了。

Jacob Effron：和某个领域最前沿的人交谈总是令人印象深刻，你知道，数字总有变化，但通常他们的生产力会全面有相当大百分比的提升。

Oriol Vinyals：我认为这一点已经在发生了，而且显然非常强大。但这个过程能持续多久，会存在一些几乎物理上的限制。模型需要被训练，有能源和硬件的限制。所以，我绝对非常渴望看到，哪些类型的问题可以被进一步自动化、增强，并能更自主地完成。但同时，某些事情上，事情发生的速度很可能存在一个自然的极限，也存在一个自然的上限。

这已经是一年多以前的事了，有人向我反映了一些事，现在回想起来感觉不太好。那就是，当模型写英文写得比你好时，我的反应是，好吧，这是一个有趣的领悟：即使你能改进那种能力，也许没有天花板，或者天花板还很远，但我们甚至可能不需要看到那个天花板。所以，整个系统的整体表现已经非常出色。而且在某些情况下，可能存在上界，明显的上界。但是，我认为模型上的物理限制，你如何训练它们，即使你认为我们确切知道配方，可以非常快速地迭代并训练下一代模型。加速是存在的，但仍然有一些相当根本的上限和速率限制。

快问快答中的深刻洞见

Jacob Effron：好吧，我总是喜欢以快问快答来结束我的采访，把我没时间问的其他宽泛问题一股脑塞进去。那么，或许从这里开始，我很好奇，在过去一年里，在AI领域，你改变看法的一件事是什么？

Oriol Vinyals：尽管我很愿意相信，在广泛的分布上训练可能会增强模型，但（事实是）在数学或编码这种极其困难的狭窄点上进行训练，却能创造出这种泛化能力。我觉得我并没有完全预料到它会有这么好的效果。

Jacob Effron：我记得Demis在I/O大会上说，我们正处于奇点的山麓，AGI可能会在未来几年内到来。你有同感吗？

Oriol Vinyals：我有同感，而且我想说得更进一步。即使是一个身处该领域、接近这些模型和神经网络的人，如果在7年前——我特意用了一个明显是在LLM所有一切发生之前的时间点——如果7年前我能用我们现在有的模型做实验，我会不会宣布这就是AGI呢？我大概会说“是的”。我是说，这是一个不断变化的定义，进展非常惊人。

所以我认为，正是因为现在我们看得更近了，对我们正在构建的东西更加雄心勃勃是件好事。但话说回来，基于不同的定义，或者甚至是我们仅仅几年前对AGI可能怀有的期望，我会说，从某种意义上讲，AGI已经来了。虽然它并没有以我想要看到的方式到来，但它已经相当接近了。也许，对我来说，模型真正从经验中学习的能力是缺失的那一环。但每个人对于模型仍然存在的感知，都会有自己的一套测试或偏见。能力差距是存在的。

Jacob Effron：我们会到达那里的。然后我们会再次移动目标，提出其他理由。我认为你们拥有的一个巨大优势是，你们显然对自己正在构建的模型极为看好。你们有自己的硬件。我想很多听众脑子里会有一个问题，所以我来问一下：你们做过一件让许多人好奇想更深入了解的事，就是把你们拥有的一部分算力出售给了Anthropic。而且Twitter上一直有一种说法，如果你们那么看好模型和研究，为什么不把所有算力都留给自己用呢？所以我相信我们的听众会很乐意听听你的看法。

Oriol Vinyals：是的，关于如何投资算力。即使在我们内部，算力也被用于服务。我们训练小模型，甚至更小的模型，然后再尝试训练前沿模型。我认为这完全是一个需要平衡的精妙等式。总的来说，理解Alphabet的一种方式是，有些事情能创造收入和经济效益，然后你可以进行再投资。所以这不仅仅是贪心地想着“我们现在该做什么？”，然后把这些全都捆在一起，就这么定了。

我认为这个策略就是多管齐下。并且我认为时间线，尽管我们当然看好技术进步，但你也要考虑营收流等等。硬件是一项非常重要的资产。而且我认为，这里可能存在一种权衡，你并非全部自己用掉，而是战略性地利用它来创造，你懂的，基本上是为了再投资。我认为这是目前看来合乎逻辑的做法。当然，这些背后的计算很复杂，所以我不会深入讲具体的理由，但总体而言，心中有不同的投资水平和时间线，这只是一个战略选择。

Jacob Effron：你的位置非常有趣，因为你是唯一拥有自研尖端、最先进芯片的前沿模型提供商。这种合作实际上是什么样的？因为这是一个如此独特的动态，显然Nvidia与其他实验室密切合作，但他们并不在同一家公司旗下。那么，当它运作得非常好时，是什么样子的？

Oriol Vinyals：正如我之前解释的，我回想起几个时刻。即使是Deep Learning在Google内部，当时也仍需证明自己。但我记得，肯定是在2013年，也许是2014年，我们一群人，我想是我、Jeff Hinton、Jeff Dean和Ilya，在一个房间里试图决定，服务器应该有什么配置？当时我们显然有一些CPU，一些GPU，你试图基于你对研究的了解、模型的发展方向来做出猜测，并且你真的可以产生那种影响。当然，会有延迟回报，因为这只是一项投资，只有几个月甚至几年后，才能在数据中心里变成现实。

所以我一直参与其中，并且我觉得那太棒了，我想我们当时尝试去预测研究领域将会发生什么。在早期，那甚至更难，但我认为能够真正施加影响，是一个非常特权的位置。我们当然也这么做。尤其是和Jeff一起，他几乎在Google存在的整个时期，都在深入思考基础设施，所以去思考“这些模型正朝这个方向发展，然后进行这些投资”就非常有趣。因为它们有一定的延迟，而身处同一屋檐下，能看到我们所看到的，真的非常非常有帮助。我曾在非常艰难的早期见过这一幕，并且它持续发生、越变越好。当然，某种程度上它减少了不确定性，让工作更容易，但依然是一个令人着迷的选择，对公司的命运等有着深远的影响。

Jacob Effron：这真是一场引人入胜的对话。我觉得我可以和你聊很久，但那会耽误我们通向AGI的进程。所以，我想确保把最后的发言权留给你。你有什么想和我们的听众分享的吗？或者想向他们推荐的研究，I/O大会上的任何内容，舞台交给你。

Oriol Vinyals：我认为，对于AI领域的任何事情，现在都是一个令人着迷的时代。所以，如果你是一个用户，去使用这些模型。如果你是一个建设者，使用这些模型去构建任何你做的东西，即使你认为它和AI毫无关系。请务必玩玩这些模型。它们令人惊叹，而且只会变得更好。

Jacob Effron：太棒了，谢谢你，这是一场非常精彩的对话。我是Jacob Ephron，你正在收听的是Unsupervised Learning，一个让我能与AI领域最聪明的人交谈，向他们提出大量关于模型正在发生什么、以及它对世界和商业意味着什么的播客。我希望这很清楚。我从中获得了巨大的乐趣，这是一个我在Redpoint担任投资人的日常工作之外的业余项目。但我们能请到这些了不起的嘉宾，真正依靠的是像你一样的听众订阅播客、并与朋友分享。这最终是让这一切运转起来的真正原因。所以，请考虑这样做，非常感谢你的支持和收听。我们下期节目再见。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

对话Gemini负责人：下一代AGI的三条主线，世界模型负责理解，Agent负责行动，Memory负责进化

Most Discussed