對話Gemini負責人：下一代AGI的三條主線，世界模型負責理解，Agent負責行動，Memory負責進化

這期對話的嘉賓是 Oriol Vinyals，Google DeepMind 核心研究者，也是 Gemini 的聯合負責人之一。他和 Noam Shazeer、Jeff Dean 一起，站在 Google 最重要模型工程的中心位置。

如果說 Google I/O 是一次產品層面的集中亮相，那麼這場訪談更像是一次模型路線圖的「幕後解剖」。Oriol 討論的不是某個功能怎麼上線，而是 Gemini 背後真正押注的幾條技術主線：多模態會不會迎來自己的 GPT 時刻，World Model 如何從視頻生成走向物理模擬，Agent 能不能從工具調用進化到長期行動，Memory 是否會成為 Reasoning 之後的新範式，以及 Post Training 和 RL 下一步到底該往哪裏走。

1. 世界模型不是「更會生成視頻」，而是讓模型真正理解世界。Oriol 認為，語言模型已經把人類寫下來的知識喫得差不多了，但圖像和視頻裏還藏着另一種知識。AI 到現在還沒有迎來真正的「圖像和視頻 GPT 時刻」。

2. Omni 的關鍵是它開始像一個可交互的世界渲染器。用戶可以用語言改變視頻裏的動作、場景和狀態，這意味着視頻模型正在從內容工具，走向自動駕駛、機器人和仿真系統的底層能力。

3. 機器人最難是會「碰東西」。抓取、移動、施力、觸覺反饋，這些人類覺得理所當然的動作，對模型來說仍然極難。World Model 要真正進入機器人，必須先補上物理交互精度這一課。

4. Agent 的下一步是讓模型自己搭系統。今天的 Agent 還依賴人類寫好的 scaffolding、多 Agent 分工和任務流程。Oriol 更激進的判斷是，未來模型可能會根據任務自動生成自己的工具鏈和子 Agent。

5. Memory 可能是 Reasoning 之後的新範式。模型不能只在一次對話裏聰明，它還要記得用戶、項目、上下文和過去的經驗。Oriol 更看好「個人知識庫/文件系統式記憶」，而不是給每個用戶訓練一套不同權重。

6. Post Training 的真正目標，不是把模型訓練成數學冠軍或編程冠軍，而是訓練出元能力。他最關心的是模型能否學習新規則、適應新環境、從經驗中變強。這比某個垂直任務的分數更接近智能本身。

7. 對創業公司來說，護城河是數據、評估和領域知識庫。Oriol 的判斷是，如果沒有資源訓練基礎模型，創業公司依然可以通過高質量 eval、專有數據和深度場景理解，建立自己的位置。

8. AGI 的門檻正在被不斷抬高。Oriol 直言，如果把今天的模型放回七年前，很多人可能已經會說 AGI 到了。但站在今天看，它還缺少最關鍵的一塊：從真實經驗中持續學習。

世界模型的多模態學習與純粹遷移的挑戰

Jacob Effron：Oriol Vinyals是Gemini的聯合負責人，與Noam Shazeer和Jeff Dean一起。他在AI領域有着非凡的職業生涯，在過去十年裏引領了許多Deep Learning的突破。在Google I/O之後能和他坐下來聊聊，真的非常有趣。如果你一直在關注Google I/O，他們基本上在AI的許多有趣領域都推出了一系列產品。所以Oriol和我都聊到了。我們討論了Multimodal Models進一步進展需要什麼，以及如何讓這些World Models真正可用。我們討論了Memory的增長和Memory的重要性，以及未來幾年這些進展將如何呈現Reasoning的形態，還有Oriol認為的前進道路。我們還探討了Scaffolding的現狀，開發者們正在構建什麼，以及Oriol認為什麼會持續下去。能夠把創始人和投資者們正在思考的所有頂級問題，一股腦兒拋給Oriol，這真的太有趣了。所以我覺得大家會非常喜歡這場對話。話不多說，有請他——Oriol，非常感謝你來上播客。

Oriol Vinyals：是的，很高興來到這裏，Jacob。

Jacob Effron：非常高興能請到你。在I/O大會後的第二天，我知道一切都很忙碌，但我對這次採訪一直非常期待，因為你是當今最直接塑造模型前沿的人之一。你在Google的工作，顯然在昨天I/O發布的那些東西里，幾乎觸及了人們目前在該領域思考的所有主題，涵蓋了這些產品和模型的發展方向。所以我覺得，我們今天的目標就是聊聊這些公告背後的研究，這一切將走向何方，比如RL和Post Training的未來路徑，以及你對於整個領域的看法。我想先從World Models開始，因為我認為那部分是昨天發布中非常令人印象深刻的一環，同時也是Google與業內其他公司相當不同的地方。所以，你們昨天在Omni中顯然交付了這個極其令人驚歎的World Model。而且，我記得Demis曾多次談到將World Models視為通往AGI的一條路徑。這很有趣，對吧？其他實驗室似乎更專注於代碼和實現Recursive Self-Improvement。所以我想知道，這種描述是否公允，以及你為什麼認為你和你的團隊以及Google會有點獨特地聚焦在這個World Model領域。

Oriol Vinyals：首先，我想編碼或者說自我改進的這個角度，它是在一個有點不同的層面上。你當然可以也相信，這些模型能夠重新編程和改進它們自己。而且這也是我目前實際上相當積極在做的事情。但接下來，它們要改進的那個模型對象，無論是Multimodal且更接近的，還是我們所說的World Model，甚至如何定義它都有點抽象。自從一開始，遠在Gemini項目啓動之前，我們就不僅在做語言，還在做理解視覺世界，以及在視覺、音頻、視頻等上下文中對詞語進行聯合建模。所以我認為，這一部分一直是Gemini以及更早我們研究的核心。而我認為也許描述它的一種方式是，語言顯然包含了我們關於世界所書寫的海量集體信息。這顯然帶來了巨大的回報，在某種程度上，我們已經把所有被書寫下來的知識，以及正在被書寫下來的知識，蒸餾到了這些權重之中。

Jacob Effron：我們把它全都放到互聯網上了，這確實很方便，對吧。

Oriol Vinyals：沒錯。而且還有用戶帶來的效應，對吧？這顯然也存在飛輪效應，但與此同時，視頻和圖像中蘊含着大量的知識。我要說的是，這種情況有點已經發生了，但只是悄然發生。我認為可能會有一個重大時刻，那就是你將如何提取那些如果你看過所有視頻和圖像就能獲得的知識，這些視頻和圖像我們當然已經在訓練混合數據中使用了。但這種知識能否以某種方式為語言部分增加價值和效率呢？我認為我們已經看到了一種建設性的，比如說，Transfer Learning，從一個模態到另一個模態。我們看到了這一點，也看到了泛化能力。但可能我稱之為視頻和圖像的GPT時刻，我不太確定我們是否已經看到了。

Jacob Effron：對於視頻和圖像的那個GPT時刻可能是什麼，你有什麼想法嗎？或者說，也許你有這種直覺，覺得它尚未達到。

Oriol Vinyals：是的，目前我們訓練所有的模態，將它們混合起來，並不斷改進訓練配方。所以Omni是展示這一進展的好例子，它不僅能夠輸入視頻和圖像，我們看到了在長上下文理解等方面的驚人能力，而且我們現在還能夠輸出視頻，同時通過語言以非常自然的方式與之交互、編輯、將各種模態結合起來，這方式感覺幾乎、幾乎是魔幻般的，對吧？所以這種進步絕對存在。

但也許，其中一個Deep Learning的夢想，而且可能是在Large Language Models出現之前就有的原始夢想是：嘿，我能只訓練所有的圖像數據而不使用文本嗎？這也許是一個艱鉅的挑戰，但仍然能設法從那個模態或一組模態以及海量數據中提取出所有的意義和細微差別。我們能否訓練所有曾製作出的視頻和圖像，並達到語言模型使用語言所達到的相同理解水平，儘管可能有點膚淺，且缺少因果聯繫——比如Demis經常談到的那種。那個時刻我見過了嗎？大概沒有，而且我們很可能擁有最先進的，或者最先進之一，能混合一切的Multimodal配方。但我認為，這種純粹的遷移是過去十多年Machine Learning的核心探索之一。

Jacob Effron：我的意思是，在你能談的範圍內我很好奇，你能給我們的聽衆一些背景，關於在這方面的關鍵問題還有哪些需要解決，或者當你在思考你正在努力解決以進一步推進這方面的問題類型時？

Oriol Vinyals：描述解決方案空間是困難的，但有一個想法經常被用到，你可以想象從所有視頻數據中觀察或學習，然後以某種方式推導出，比如說，萬有引力定律。就像，你如何僅憑圖像來精確描述世界是如何運作。所以問題在於，將語言，或者我們有時所稱的這些概念，與你在圖像中看到的東西聯繫起來，而沒有顯式的語言聯繫，是相當棘手的，所以你最終會嘗試去顯式地創建數據集，在圖像和視頻與某些語言（比如可能是標籤或描述等）之間存在某種相關性或聯繫。但是當然，現在你可以使用的數據量要少得多，因為我們並沒有為外面的每一份媒體清晰地描述和轉錄。所以我認為，這就是以最純粹的形式提取那些概念，而不僅僅是我們與詞語關聯的某種語言，這將會非常強大。

而且，在離散表示、Representation Learning方面有很多早期研究。我的意思是，這可能是，我會說，還處於相當早期的研究階段的事情之一。所以這不是我們可能可以規模化的事情，但我認為這是其中一個，我不確定它是否必要。我的意思是，不管我們是否同意這一點，是另一個問題，但如果它得以解鎖，那將是巨大的。

從Omni到機器人的模型落地

Jacob Effron：你提到了"World Model"這個詞，以及它被到處使用的情況，顯然Omni是作為一個World Model來定位的。我很好奇，你是如何看待這種分類的？畢竟，你們顯然已經有好一陣子非常出色的視頻模型了，對吧？是什麼讓Omni成為了一個World Model，它和你們一直在研發的那一代視頻模型又有什麼不同？

Oriol Vinyals：我想World Model的一個純粹方面會是Representation Learning。你可以想象，我們接收這些模態，比如視頻（它們是圖像序列，或者甚至只是圖像），然後將其壓縮為一組概念，以及這些概念中包含的運動、物體等等，這差不多就叫做Representation Learning。它以非常緊湊的方式對世界進行建模，壓縮掉了那些可能不相關的東西。

那可能是一種更經典的定義，但也可能並不是我們在與Omni交互時所意指、所見或所感受到的全部。你在那裏看到的，更多是你能真正改變視頻的行為方式，或者通過你要求進行動畫處理的一張初始圖片，來生成各種類型的視頻。你會明確要求所有的動作，甚至是像"向前移動"這樣的Action，並且你可以看到它被精確地模擬出來。所以這更像是World Model本身充當了一個世界的渲染器，你可以通過語言真正地改變它。現在有了這個對象，除了作為一個很酷的產品可以讓我們非常豐富地生成各種不同的動作或場景等等之外，它還可能有意義地增加一個模擬的維度，這能讓我們在真實世界中行動之前，進行預測之類的事情。當然，對於這種3D或World Models，顯而易見的應用就是自動駕駛汽車或機器人技術。

Jacob Effron：這似乎與機器人技術密切相關。感覺好像，每個人仍在試圖找出模擬數據、各種形式的遙操作數據和第一人稱視頻數據之間的正確數據配比。但看起來，隨着這些模擬不斷改進，將它加入到數據混合中變得越來越有吸引力。我很好奇，這項工作是會與你們正在進行的更廣泛的機器人研究工作直接交匯嗎？以及，你如何看待為了將機器人動作附加到這類模型上，真正需要的是什麼？

Oriol Vinyals：這裏也存在一種美妙的聯繫。當然，如果我們獲取更多由機器人採集的數據（儘管這顯然更昂貴或更耗時，但我們肯定正在投資於此），這些數據可以進入模型，增強World Model本身的能力。而另一個方向，也許就是你剛纔問的，就是現在我們可以模擬，可以創建大量不同的場景，讓這些機器人或其他1D、3D實體能在其中進行訓練，而無需承擔物理世界的成本和時間延遲，對吧？為了讓後者更好地運作，這仍然是一個非常開放的問題。還有各種關於遷移的問題，但隨着這些模型變得越來越強大，顯然會存在一個臨界點，事情開始變得值得去做。我們可能會看到機器人技術的加速。實際上，在硬件領域，我們確實看到了大量的投資。事情正在加速並取得進展。

但為了讓World Models變得有用，至少以我有限的知識來看（不過我當然能夠與這些系統交互並觀察它們），即使是抓取一個物體所需要的精確度——這對人類來說理所當然——比如視覺、它在你手中的確切感覺（這是一種我們目前顯然甚至都沒有數據的模態），然後是精確的力，物體會如何移動，這些都需要非常、非常準確。這就是差距所在。也許還需要一些創造力和研究，以及多年來在機器人領域的大量投資。但這是有希望的。在某種程度上，或許不是在精確的運動控制層面，而是在規劃和總體層面，我們將開始看到這些模型如何加速我們在機器人探索上的進展。

Jacob Effron：這些模型一個巨大的部分是，通過消費大量視頻數據，內隱地學習物理。我記得你提到重力是人們尋找的一個典型例子。你離這些模型這麼近，有沒有什麼直覺，覺得這何時會成為World Models內部一個已經解決了的問題？

Oriol Vinyals：是的，這是個好問題。實際上，你讓我想到了評估。比如，如果你訓練了一個非常好的模型，你會如何評估它？你可以想象，一旦你加入了語言，突然間那些知識就以某種方式存在於其中了。如果你問一些關於重力的基本問題，你當然可以通過在網上讀過相關解釋等等來回答它們。所以你需要以某種方式，將重力這個概念（它可能存在於World Model中，也可能不存在）與解碼出的解釋聯繫起來，起初可能是一些基礎的解釋，之後甚至可能推導出方程式之類。你如何能構建一個評估？據我所知，我認為我們還沒有從這個角度思考過這個問題。

在無監督機器翻譯方面確實有很多早期工作，你會嘗試翻譯成一種在訓練中從未見過的語言，並且你可以對齊表示。所以可能有一些想法，你有一個可以說出語言的語言模型，或者你可以從中解碼。你有一個World Model，它會創造這種概念層面的理解，然後將兩者對齊。

你知道，有一些論文，我是說這些都是比較老的論文了。我記得有一篇是Stefan Gauss等人的，是2014年的。然後你可以嘗試開始解碼那個，將其轉化為一個評估似乎就成了很簡單的一步。但同樣，這些評估方法需要從應用的角度來看有意義。所以最終，你也可以說：我們有一個World Model，我們能從它的表示中解碼出，或者，比如說，在一個複雜系統中引發運動嗎？那將是另一種間接的評估。所以有很多想法，但評估是如此重要。

Agent進化與模型自編寫

Jacob Effron：好了，換到你們昨天發布的其他東西上。你肯定想聊聊Agent，你們在I/O大會上發布了一些非常有趣的消費者Agent。我覺得這特別有意思，因為至少從外部來看，這像是你們在2024年通過Project Mariner和一些其他Compute Use工作所探索的東西的一個真正改進版。所以確實感覺在能力上有了一個真正的階躍變化。因此，我很想聽聽你談談促成這種變化的研究突破，以及人們應該如何思考這些Agent現在能做什麼、不能做什麼。

Oriol Vinyals：我們知道那將是一個非常重要的模態——Actions，對吧？在一個數字計算機上執行動作並改變其狀態。然後我認為，隨着你不斷演進並使模型變得更好，你會開始意識到，先把模型做到非常好，然後專注於系統，圍繞模型構建一個系統，再儘可能地聯合優化系統和模型，如此往復。談到是什麼創造了能力的增量或提升，這主要是關於專注，關於安排發布順序。在某種意義上，模型的能力也需要達到一定的水平，然後你才能去設想下一個階段的能力，設想模型接下來可能做什麼。

Jacob Effron：我想關於消費者足跡，有一件非常有趣的事情就是，人們想用它處理的事情範圍實在太廣了。所以，我想知道，從目前來看，以及你如何看待它隨時間演變，模型加系統的那部分工作，相對於人們想解決的問題的子類別來說，它有多定製化？還是說，它是極其通用的，就像你只是在優化一個系統與模型的組合，這個組合能處理你在Spark中幾乎任何想做的事情？

Oriol Vinyals：總是有一個順序，先專注於某個可控的、你已經知道非常有用的東西。如果你看看Spark，它能接觸到為協助你安排和規劃一天，甚至思考你該如何處理不同問題所需的信息，因為它擁有如此豐富的Context。所以，圍繞你非常關心的東西，略微收窄系統構建範圍，是有用的。但如果你回顧Machine Learning和Deep Learning的歷史，我們總是從通用組件開始構建。並且存在一個重大假設，這又有點回到了World Model的觀點。

實際上，在所有數據上聯合訓練，肯定比僅僅狹隘地專注於單一領域要好。所以，即使從建模的角度看，這一點也非常明確。但即便從系統的角度看，一個相當通用的系統，根據你與之交互的方式，你當然可以把它放進這樣的空間裏：這個用戶想做這件事，但我擁有所有這些能力。讓我在訓練時就直接搞清楚該用哪些，而不是專門為它去構建，而是構建通用的東西。然後，專業化通過一層智能發生，也就是模型的智能和系統的通用性。我認為這一點已經相當明顯了。然後有時在實踐中，對其進行限制或使其更高效，仍然有意義，將專用變為通用。

我們已經看到這種情況在持續發生，甚至從架構上就是如此，對吧？Transformer最初是一個機器翻譯神經網絡，現在它無所不包，從Omni到控制你的電腦。所以，我認為這是我期待的一步。

Jacob Effron：這些年來你一直公開談論「苦澀的教訓」。我很好奇，當你放眼整個領域時，你是否看到有些地方目前並沒有遵循它，或者，基本上，當你觀察時，你是否看到一些結構或巧妙的Scaffolding，你認為規模最終會把它們沖刷掉。

Oriol Vinyals：是的，有一個我感興趣的領域，已有一些相關研究發表，那就是，我們現在通過編碼在模型周圍構建的、有時是複雜的Scaffolding系統，比如多Agent、子Agent、委託、超長時間運行。那個系統本身是一段代碼，最終模型自己可以實時地編寫它你可以。想象，不是只有一個非常通用的系統，而是可能根本沒有系統，只有模型能夠根據它被要求做的事情，去編寫那些系統。

Jacob Effron：就像是為了一組問題，生成幾乎最高Token效率、最高質量輸出的子Agent集合和它周圍的一切。

Oriol Vinyals：是的，正是如此。我的意思是，我們在過去一年半左右看到的一種範式轉變，當然就是能夠在Token空間中進行長時間推理的Reasoning模型。但當然，最終變得更加重要的是，你應該推理多久？你應該基於用戶可能提出的問題的複雜性，來增加那層智能嗎？這將使它更高效。所以我認為，圍繞這些系統所做的工作，將會有一個層面，我不確定是完全從頭編寫合適，還是某種自動化機制，會聰明地為正確的任務創建正確的Scaffolding。

Jacob Effron：在Agent方面，我認為有很多人都在擺弄和試驗，構建這種長時間運行的Agent。而且我認為，很明顯，他們在試圖讓這些Agent在上百個步驟中保持穩定時，會遇到各種各樣的問題。你如何看待要達到進一步的通用可靠性，需要些什麼？

Oriol Vinyals：我認為回答這些問題最顯而易見的方式，就是改進模型周圍的Scaffolding，以及模型本身。如果你想想如何訓練一個神經網絡，它是在某個任務分佈或模態分佈上進行訓練的，或者學習如何將不同的詞連接到視頻等等，對吧？所有這些都是關於你如何訓練、預訓練或後訓練這些權重。所以，如果你想，有一種新的工作類型或模態，需要這些超長時間運行的系統，需要從這些極長的上下文中學習，而我們一直在創新並推動這一點，1.5版本就是我們長上下文的突破。那麼，模型顯然也會迎頭趕上，去滿足用戶和那些未來主義的使用場景。這有點像研究者的挑戰，對吧？預測什麼是可能的，然後不僅專注於構建一個對此魯棒的系統，還要考慮當你把所有的上下文和所有瘋狂的操作都塞進去時，如何讓權重變得不那麼不開心或者更開心？而不是僅僅寄希望於從誘導該行為的Prompt中泛化。

記憶與持續學習

Jacob Effron：每個人都在試圖弄明白的一個模式是Memory，對吧？以及如何在這些Agent之間解決這個問題。對於這個問題最終會在哪裏得到解決，你有什麼想法嗎？

Oriol Vinyals：是的，從很早之前開始我就認為Memory非常迷人。你可以這樣想，我認為最初我們這樣描述它，這或許源於我的個人偏見，因為我曾研究過大腦中的Memory系統並取得了博士學位。關於Memory有幾種思考方式，但我喜歡的一種更簡單的方式是：工作Memory，即那些由於我們正在做的事情或討論的內容而非常鮮活的事物；然後是所謂的情景Memory，那是一種你可以訪問的檢索系統，它可能不那麼精確，上下文更長，或者可能擁有你或我完整關心的、我們積累的所有體驗的全部上下文。

現在，Memory的層次不止兩個，但這樣按層次思考很有用。計算機也是如此，有L1、L2緩存等。所以，談到模型，我認為工作Memory，因為有了Transformer等等，我們有了一個非常強大的機制來使用那種Memory，可以動用數百、數千、數百萬個Token來修改那個Memory，然後用它做出驚人的事情，證明覆雜的、金牌級別的數學問題等等。而我認為我正看到許多動能的是，如何鞏固那些發生在之前不同交互中、或者在某個可能比工作Memory所能記住的還要長的交互過程中發生的事情，我們如何存儲那些知識？通過不同的實驗。

我認為，其他的，比如現在標準叫法是我們稱為技能的東西，但更通用的是，我們確實可以訪問一個Memory系統，因為它是一個Agent，那就是計算機本身。所以你可以開始思考，將你的想法寫入文件，構造成目錄或文件夾，並在你與同一個用戶進行多次會話或在一個非常非常長的會話中這樣做。目前這種機制相當不錯。但話說回來，我不認為模型的權重已經趕上了這一點。

把這種知識庫添加到一個文件系統中，或者任何你可以用基本的檢索機制修改和讀取的存儲格式中，這是否是添加？這已經非常強大了。然而，我認為還有很多東西有待開發。我想，我們很多人都稱這種形式為某種形式的Continual Learning。但我希望起作用的機制，它顯然會變得越來越好，是這種文件系統式的、非參數化的形式。

比起將這些記憶整合回權重中，這種方式要更方便一些。因為即使從實際的角度來看，我們試圖大規模地提供同一個模型。所以，如果必須為不同用戶提供帶有不同記憶的模型，那將會是非常痛苦的事情。因此，即使從實際角度出發，我認為我們將會看到更好的評估方法和這些模型在交互中積累知識的方式。我認為這可能也是一種範式轉變，某種程度上類似於我們在大約一年半前看到Reasoning出現時的情況。

Jacob Effron：這是否意味着每個人都有模型，然後它們擁有各自獨特的文件系統，還是說你覺得隨着時間的推移，人們擁有的模型，其權重會因其做過的事情而有所不同。

Oriol Vinyals：正如我所說，權重不同會很麻煩。

Jacob Effron：很難部署？

Oriol Vinyals：是的，確實會很麻煩。如果那是最好的方式，那我們總會找到辦法的。去設計專門的硬件，當然我們也在硬件設計上投入了大量資金，可以說，那會讓你擁有更個人化的權重。但至少，你當然會擁有可能是你個人的專屬知識庫。你甚至在過去幾年裏，已經在LLM領域看到了許多這方面的例子。然後或許還有另一層知識，它對於給定模型的所有用戶來說更通用，你可以想象能夠訪問它，並在不觸碰權重的情況下豐富或增強模型能力。這非常有趣。而且，能做到那一步就太棒了。

Jacob Effron：我感覺Continual Learning一直是熱門話題，人人都在談論它。你已經看到一些有趣的例子，一些知名人士從OpenAI或其他地方出來創業，說，嘿，我相信你可以繼續擴展我們現在做的事情。我認為，沒人否認那些Scaling Laws仍然存在，但他們在說，感覺你需要一種幾乎全新的研究賭注，才能實現真正的Continual Learning。而且，也許在那種持續改進核心LLM的路徑之外去追求它，是有道理的。我很好奇你如何看待這整個動態？還有，你對此的反思。

Oriol Vinyals：我很早就加入了Google Brain，然後在2016年轉到了DeepMind。此刻，我認為這裏存在着挑戰和機遇。你顯然想去研究一些研究問題，這些問題可能不契合「未來三個月內就要把它放進下一次訓練運行」的節奏，但同時，這也不能和LLM的發展方向完全脫節。

我們正在改進Gemini。看着Flash在僅僅幾個月前還表現不佳，現在卻超越了，這很令人着迷。而且這種情況持續發生，保持在能力的最前沿，這可能會啓用或禁用某些研究，同時也為研究提供了保護。當然，這不是以年為單位的事，事情發展很快。但將這兩者結合起來，正是構建這些組織的魔力所在。當然，我們所有人都有不同的目標，需要想辦法彌合它們並識別機會。這需要一點功力，對吧？不能什麼都做，組織太大了，但要有一些直覺，然後能夠有時急切地把這些想法拉進來，因為感覺就該這麼做。所以，這實際上定義了那個層面的組織。

從研究的角度看，我可以看到，從機器人技術的投資，到LLM的巔峯，再到那些要麼已成功、要麼將會成功的研究。但這很有挑戰性，資源是受限的，所以這是一個有趣的權衡，並非總能做對。但我認為，這是一個引人入勝的、不同角度的研究，不僅僅是那個能發下一篇論文或進入下一個模型的想法，而實際上是如何組織這整個組織。這非常吸引人。

Jacob Effron：我的意思是，對於像你這樣角色的人來說，這感覺像是最有趣的問題之一，你很難不對如今用這些模型能推進的如此多的事情感到興奮。而且顯然有太多事情在發生。我感覺，即使像OpenAI這樣的組織，他們也在「我們應該去做，AI這邊有太多唾手可得的成果」和現在這種更聚焦的時刻之間搖擺，現在更像是，天哪，我們必須真正搞定代碼並趕上Claude的代碼能力。我想知道，你如何看待這種權衡：是專注於一件事，讓所有人都朝着那個方向劃，還是可能面向更廣泛、每個方向都超級有趣的領域。

Oriol Vinyals：你知道，Google因幾個原因處在一個獨特的位置。首先，我們確實在Gemini上擁有很廣的覆蓋面，目前它實際上驅動着一切，但我們有優勢。組織中其他部門的人們已經完全接受了LLM時代，所以某種程度上，他們拿着模型，然後可能會去做些事情。但如果你覺得那不是推進前沿能力的下一步，那麼，你可以放心，有一個非常優秀的團隊會把模型帶到它該去的地方。

同時，我們從硬件採購中獲得穩定性，顯然，鑑於我們的營收流等等高度垂直整合，我們也有資本投入。所以你可能可以在某些研究領域更進一步地冒險，當然這需要品味。所以你擁有這種狀態，它不是聚焦，但因其組織方式而可規模化。然後你仍然可以投資於創新，這一直是我們所做一切的核心。如果我看看我曾待過的兩個組織，Brain和DeepMind，現在合稱Google DeepMind——鑑於我顯然在不同時期都在兩邊待過，我很欣賞這個名字——那麼我認為，我們的DNA裏就有着持續創新的基因。但與此同時，我認為Gemini創造了一種聚焦和統一的力量，這非常了不起。

我和Jeff已相識多年，曾一起純粹為了樂趣去旅行，這非常有幫助。所以我認為那段時光非常特別。而且我認為，那個中心，也就是核心建模工作，非常專注於前沿能力，然後擁有這些輸入和輸出，這是一種相當合理的方式，既能保持專注，又能利用一些探索，而這些探索可能仍然需要，也可能不需要。我們是否需要World Models？如果我們能把它做出來，那肯定需要。如果做不出來，也許也沒關係，對吧？但適當下注總歸是好的。

RL泛化、元能力與AGI的未來

Jacob Effron：說回到模型方面。或許換個話題，聊聊Gemini模型本身，以及未來的發展路徑。我記得你之前說過，Post Training基本上還是一片完全的「綠地」。我覺得我們已經看到，Post Training和RL在編碼和數學領域取得了驚人的進步。就在我們錄製這期播客的幾個小時前，剛有一個新的數學問題被解決。大家都在試圖弄清楚的是下一批RL會真正起飛的領域有哪些特徵，我很好奇你的直覺。感覺在編碼和數學方面，我們正處在一個瘋狂的指數增長路徑上，很想聽聽你對哪些其他領域是良好適配的直覺。

Oriol Vinyals：是的，這是個好問題。我必須說，這些模型在很多事情上已經非常出色了，所以很難武斷地說「這個完全不行」，對吧？幾乎通過Prompt，再加上一點巧妙的Prompt，也許構建正確的系統，很多驚人的事情，至少在我稱之為數字世界裏的「數字AGI」方面，已經非常令人印象深刻。所以我認為，當我說Post Training是一片綠地時，與其說是關於某種能力，感覺離達到「這相當智能、相當先進」的可接受水平還很遠，不如說更多是機械地觀察那些利用了模仿學習或預訓練加後訓練的其他工作，以及在計算投入上，預訓練相比今天模型所使用的相對較少的後訓練投入，差距有多大。

原因其實很清晰，但不確定是否容易解決。事實是，即使你取一個非常狹窄的領域，比如用強化學習翫圍棋遊戲。你現在有一個可以下棋的系統。它下了幾步棋，遊戲進行了幾步之後，那個情境、那盤棋局就變得獨一無二了。我的意思是，你之前從未見過那個特定的盤面。所以，環境的複雜性隨着你的對弈，使得生成訓練數據幾乎是無限且免費的。就像，你下了幾步，現在就處於一個新局面。因此你可以從中學習。你玩得越多，花在RL算法上的時間越多，獲得的知識就越多。這就是我們在遊戲強化學習時代看到的情況。

而在LLM中，我們是數據受限的，而無限複雜性的源頭是什麼？這一點還不那麼清楚。有一些想法，但我認為，破解那個配方可能會是件大事，至少從算法的美感上來說是如此。如果能看到它現在也在LLM中起效，會比不知道它過去如何起效更令人滿足。那麼，這必要嗎？能力還沒達到嗎？這很難說。但既然你問是哪些能力，我認為就模型所做的事情而言，最讓我着迷的是我稱之為「元能力」的東西。它們不是數學或編碼。它們更像是智能的特徵或屬性，以及這些模型是否能做到。所以實際上，持續學習或從經驗中非常高效地學習的能力，那會是一項上下文學習，我們過去稱之為元學習等等。

這是一種我可以某種程度上衡量或感知的能力，而且可能還不是非常非常好。例如，指令遵循當然是一項能力，你甚至可以說它是終極能力，因為如果我讓一個模型做某件事，它要麼遵循那個指令，要麼不遵循。但我的意思是，嘗試去看那些不太關乎某個特定領域或垂直行業，而更像是「智能行為」的能力。所以，學習和適應的能力，而不是成為職業選手、國際數學奧林匹克金牌得主之類的能力，纔是我在每次訓練新模型時，看到新發布和拿到手的模型時最着迷的地方。

Jacob Effron：你有沒有一個常用的方法來測試這個？

Oriol Vinyals：我喜歡遊戲，所以我通常會在上下文中定義一個新遊戲。這是一個相當經典的做法。當然，你需要小心，因為如果那個遊戲已經在權重裏了。

Jacob Effron：如果其他任何人把那遊戲放到過互聯網上，你就有麻煩了。

Oriol Vinyals：但我記得，應該有一個評估方法。雖然那不完全是我的做法。

Jacob Effron：實際上，我意識到我問你這個問題有些無禮，因為這個播客之後會公開，然後下一個模型就會知道怎麼做了。

Oriol Vinyals：沒問題的，也許吧。是的，希望我們需要破解World Models，對吧？除非它被完全轉錄，我確信它會。所以也許我們甚至不需要那樣，但我真的很喜歡一個評估，我認為那個評估實際上非常古老，遠早於LLM，大概是在2015年之前。那個評估很簡單。你給出一個指導手冊，我記得是給《文明》這個遊戲的，然後，你應該要能夠玩它，對吧？所以我喜歡那種風格的評估，你可以用不同方式創建它，但這是我用來測試模型的一種方式。而且它們做得不是那麼好，尤其是當遊戲變成了我剛發明的東西之類的時候。而且這種能力是雙重的。

首先，你能理解指令並據此按指令玩遊戲嗎？但還有另一個方面，那就是隨着你玩遊戲，你會學着玩得更好。所以，你能不能在實戰中看到這種情況發生？這令人印象深刻。但話說回來，如果你讓一個遊戲的分佈變得非常奇怪，它可能是真的，但仍然不在訓練集中，這個特定的測試對模型來說並不容易通過，對吧？還有很多其他測試，但我真的很喜歡這一個，而且遊戲以一種有用的方式，但你又完全不會在這個遊戲上訓練。這不是關於只訓練下圍棋的Go，而是正好相反。但我喜歡從能力的角度進行這種思考。

Jacob Effron：我的意思是，顯然你們已經投入了大量的努力。你知道，遊戲曾是類似可驗證領域的首個典型例子。而現在，編碼和數學領域也有了。我想知道，這個領域一個懸而未決的大問題是否是，我們能在多大程度上看到RL的泛化能力？感覺有時候這些模型在我們進行RL的領域上攀登得非常出色，你應該比我更清楚是否看到了那一點隨後流向了模型的其他方面。但某種程度上，感覺這幾乎是一個有趣的時刻，我們談論過最通用的「苦澀的教訓」時刻。這是一個在特定領域找到數據，針對該數據進行RL，並改進模型的時刻。我很好奇，這算是對當下正在發生的事情的公允描述嗎？還有，你看到那種泛化的跡象了嗎？

Oriol Vinyals：是的，人們努力尋找那些能確實引發深度推理、並且我們能從中看到泛化的難題來源。實際上，推理模型主要是在，比如說，編碼和數學上進行推理。但接着你會看到它們是如何推理關於任何問題的。你知道，我最近剛搬回美國。我問了一大堆關於搬家、稅務等等的問題，你可以看到推理相當不錯，很難相信它曾被訓練過這類問題。所以我們確實看到了泛化，並且在創造性地嘗試獲取更多能引發深度推理的數據，還有深度的Agent行為。是最近我們看到的改進的一部分，就是找到那些來源。只侷限於可驗證性肯定是不盡人意的，因為大多數時候，對於我想讓模型做的事情，即使我有全世界所有時間，我也寫不出一個驗證器。

所以，我感覺創建解決方案和評估解決方案之間存在一種不對稱性，評估方案確實比創建方案更簡單。可以說，如果你思考一些論點，例如NP難題，為它們創建解決方案非常困難，但驗證卻很簡單，這給了我希望，即模型自身將能夠進行判斷，即使沒有完全可驗證的方式來判斷一段代碼是否創建了一個漂亮或引人入勝的遊戲。所以我認為這是一項非常有趣的研究，而且實際上，我們已經看到這類想法產生了很大的影響。所以我們做得越多，就能在越多的領域上進行訓練。問題在於，你真的需要那樣做嗎，還是僅僅專注於某些數學和編碼問題，就足以激發出這種「變得智能和解決問題」的元能力？我不知道，我是說，兩種可能性都存在。

Jacob Effron：你直覺上傾向於哪一種？

Oriol Vinyals：我很願意相信你需要在一個廣泛的分佈上進行訓練，並且那應該對模型有幫助。但通過預訓練所能獲得的泛化能力是如此之強。所以，也許這取決於對「超人」的雄心壯志，或者這些模型所能達到的上限。但歸根結底，我感覺在Machine Learning中，在儘可能符合分佈的數據上進行訓練似乎是可取的。所以，這是研究人員在未來幾個月和幾年裏需要破解的任務之一。

Jacob Effron：我們很多聽衆和正在創建公司的創始人們都在思考的一件事，就是搞清楚他們應該在多大程度上在模型層工作，還是純粹在模型之上構建應用。我想知道，一個明顯的趨勢是，有些公司在模型之上做自己的RL，並表示：有一類特定問題我們可以去解決。或者，甚至可能最引人注目的是，比如Cursor在編碼領域，但我們需要去訓練自己的基礎模型。我很好奇的是，你的直覺是，什麼時候你知道這確實有意義，或者什麼時候可能沒意義。

Oriol Vinyals：我會告訴人們，其價值——我們稍微討論過這點——在於評估的價值，以及數據，基本上這兩者是緊密相關的，其中蘊含着巨大的價值。所以，無論你是否構建自己的模型，因為也許你還處於非常早期的階段，或者你無法接觸到人才、資源等所有東西，非常仔細地思考如何評估你在嘗試做的任何事情上的進展，實際上會非常有價值，而且這甚至可能成為一個標準評估，像我們這樣的人甚至會採用或監控。當然，數據的價值是巨大的，尤其考慮到我們啱啱討論的Post Training，以及缺乏足夠的數據來運行那種我們幾年前可以愉快進行的、長達數月的訓練。所以，我認為那裏存在機會。

我知道，在這方面，正在構建東西的人們也投入了大量的精力。與此同時，我認為，在模型之上構建，即使模型能力會不斷變化——再說一次，我顯然不是投資人，不是專業投資者或產品人——實際上，僅僅專注於你真正相信的東西，可能會為你創造一些機會，讓你擁有這個領域，理解它，獲得用戶，達到臨界規模。而且，如果那是其他人，比如大玩家們，沒有專注的事情，我覺得即使你只做產品上的專業化，哪怕你不做任何其他事情，也有很大的價值可以創造。

Jacob Effron：現在看來，幾乎可以肯定的是，早期你先做產品專業化，在模型之上構建，達到一定規模，學習評估方法。我覺得很多這類公司正開始試圖弄清楚，我們是應該利用這些來Post Training一個模型，還是做點別的？顯然，這樣做的權衡是，隨着這些模型通用化，能力提升，它們永遠不會像最大的實驗室那樣在廣泛的數據上進行訓練。所以，你可能就像在跑步機上一樣，每隔兩三個月，即使你短暫地領先了最先進水平一點，你也可能需要不斷地重做。

Oriol Vinyals：是的，但這裏又有一個角度，回到了我們討論過的另一個話題。隨着這些模型變得更能持續學習，或者使用一個可能非常複雜的知識庫，那麼為某個特定應用構建那個知識庫，雖然不是像訓練權重那樣，它更高效一些，但你可能可以為其增添許多獨特性，這可能會保護你免受那些沒有花大量時間仔細思考它如何與當前模型交互的人的衝擊，而那項能力只會變得更好。所以也許那個角度對於遊戲中的早期玩家來說，也更具可擴展性。

Jacob Effron：我想，在我們談到的這麼多研究方向上都存在着如此引人注目的前進道路。有哪些能力是你不太確定如何達到的呢？也就是，哪些方面你或許還沒看到研究路徑，但你認為相當重要？

Oriol Vinyals：我認為對於相當多的能力，我看到了研究路徑。我是說，多年來最讓我着迷的一個，尤其是在我2016年加入DeepMind時，就是元學習，或者說模型學習的能力。那是一種如此美妙的能力，既然你研究Machine Learning的話。所以這一項是我感覺存在路徑，現在有了一些基礎，並且它將會持續改進的。但可能有一條路徑，我目前不確定它有多實用，那就是人們提到的，「這些模型能真正創新嗎？」我認為這部分很重要，因為，當你致力於「你能在Machine Learning裏想出新的想法嗎？」然後我們實現它們，編碼非常出色，部署它們，等等。我們正在對此進行實驗。

你知道，很多人都相當程度上在利用我們現有的全部知識，但要以品味去進行創新，這是很難得的，即使對人類來說也是相當特別的，而且說實話，有時是隨機的。這不像是「這個人太聰明瞭」。其實你只是讓一萬個人去嘗試，然後你顯然選出了那個做對了的人，並加以頌揚，對吧？所以我認為，那種創新能力對於某些事情，比如自我改進，可能相當重要。然而，甚至嘗試去評估它都顯然很難，而當某件事難以評估時，可能意味着它也很難在上面取得攀登式的進步。所以，在任何方面進行創新的能力，但具體來說在科學上，是一個我認為還需要更多進展的好例子。

Jacob Effron：顯然，我認為Move 37是上一個時代的經典例子。那麼，你最近有沒有看到什麼感覺最接近這個的事情？甚至在我們開始錄製之前，我記得OpenAI討論了他們啱啱解決的那個組合幾何問題。

Oriol Vinyals ：如果我從Machine Learning的角度來看，這就是重點——我認為我還沒有看到一個模型產生出真正卓越的想法。但我確信很快會看到，因為模型在理解，比如說，一個模型是如何被訓練的這方面，表現出了一些洞見和方式，感覺上是超人的，因為從機制上講，這些模型能接觸到我們無法企及的信息帶寬。所以，也許那部分已經令人印象深刻了，但我也希望能在idea層面看到同等程度的驚豔，而Machine Learning是我能更準確評估的明顯領域。所以，是的，敬請期待。

Jacob Effron：當你思考我們何時能達到這種，對Machine Learning研究產生真正洞見，以及這種遞歸自我改進的世界的層次時，我很好奇你是如何推理的。那甚至意味着什麼，或者你如何想象它隨着時間的推移會是什麼樣子？甚至是一些基本問題，比如「苦澀的教訓」是否仍然成立？或者，當我們進入那個世界時會發生什麼？我很想聽你即興聊聊這些。

Oriol Vinyals：作為研究者或工程師，你使用這些工具來提高你自己的生產力，使其達到某個效率水平或者某個層次。我們現在已經看到很多這樣的例子了。

Jacob Effron：和某個領域最前沿的人交談總是令人印象深刻，你知道，數字總有變化，但通常他們的生產力會全面有相當大百分比的提升。

Oriol Vinyals：我認為這一點已經在發生了，而且顯然非常強大。但這個過程能持續多久，會存在一些幾乎物理上的限制。模型需要被訓練，有能源和硬件的限制。所以，我絕對非常渴望看到，哪些類型的問題可以被進一步自動化、增強，並能更自主地完成。但同時，某些事情上，事情發生的速度很可能存在一個自然的極限，也存在一個自然的上限。

這已經是一年多以前的事了，有人向我反映了一些事，現在回想起來感覺不太好。那就是，當模型寫英文寫得比你好時，我的反應是，好吧，這是一個有趣的領悟：即使你能改進那種能力，也許沒有天花板，或者天花板還很遠，但我們甚至可能不需要看到那個天花板。所以，整個系統的整體表現已經非常出色。而且在某些情況下，可能存在上界，明顯的上界。但是，我認為模型上的物理限制，你如何訓練它們，即使你認為我們確切知道配方，可以非常快速地迭代並訓練下一代模型。加速是存在的，但仍然有一些相當根本的上限和速率限制。

快問快答中的深刻洞見

Jacob Effron：好吧，我總是喜歡以快問快答來結束我的採訪，把我沒時間問的其他寬泛問題一股腦塞進去。那麼，或許從這裏開始，我很好奇，在過去一年裏，在AI領域，你改變看法的一件事是什麼？

Oriol Vinyals：儘管我很願意相信，在廣泛的分佈上訓練可能會增強模型，但（事實是）在數學或編碼這種極其困難的狹窄點上進行訓練，卻能創造出這種泛化能力。我覺得我並沒有完全預料到它會有這麼好的效果。

Jacob Effron：我記得Demis在I/O大會上說，我們正處於奇點的山麓，AGI可能會在未來幾年內到來。你有同感嗎？

Oriol Vinyals：我有同感，而且我想說得更進一步。即使是一個身處該領域、接近這些模型和神經網絡的人，如果在7年前——我特意用了一個明顯是在LLM所有一切發生之前的時間點——如果7年前我能用我們現在有的模型做實驗，我會不會宣佈這就是AGI呢？我大概會說「是的」。我是說，這是一個不斷變化的定義，進展非常驚人。

所以我認為，正是因為現在我們看得更近了，對我們正在構建的東西更加雄心勃勃是件好事。但話說回來，基於不同的定義，或者甚至是我們僅僅幾年前對AGI可能懷有的期望，我會說，從某種意義上講，AGI已經來了。雖然它並沒有以我想要看到的方式到來，但它已經相當接近了。也許，對我來說，模型真正從經驗中學習的能力是缺失的那一環。但每個人對於模型仍然存在的感知，都會有自己的一套測試或偏見。能力差距是存在的。

Jacob Effron：我們會到達那裏的。然後我們會再次移動目標，提出其他理由。我認為你們擁有的一個巨大優勢是，你們顯然對自己正在構建的模型極為看好。你們有自己的硬件。我想很多聽衆腦子裏會有一個問題，所以我來問一下：你們做過一件讓許多人好奇想更深入了解的事，就是把你們擁有的一部分算力出售給了Anthropic。而且Twitter上一直有一種說法，如果你們那麼看好模型和研究，為什麼不把所有算力都留給自己用呢？所以我相信我們的聽衆會很樂意聽聽你的看法。

Oriol Vinyals：是的，關於如何投資算力。即使在我們內部，算力也被用於服務。我們訓練小模型，甚至更小的模型，然後再嘗試訓練前沿模型。我認為這完全是一個需要平衡的精妙等式。總的來說，理解Alphabet的一種方式是，有些事情能創造收入和經濟效益，然後你可以進行再投資。所以這不僅僅是貪心地想着「我們現在該做什麼？」，然後把這些全都捆在一起，就這麼定了。

我認為這個策略就是多管齊下。並且我認為時間線，儘管我們當然看好技術進步，但你也要考慮營收流等等。硬件是一項非常重要的資產。而且我認為，這裏可能存在一種權衡，你並非全部自己用掉，而是戰略性地利用它來創造，你懂的，基本上是為了再投資。我認為這是目前看來合乎邏輯的做法。當然，這些背後的計算很複雜，所以我不會深入講具體的理由，但總體而言，心中有不同的投資水平和時間線，這只是一個戰略選擇。

Jacob Effron：你的位置非常有趣，因為你是唯一擁有自研尖端、最先進芯片的前沿模型提供商。這種合作實際上是什麼樣的？因為這是一個如此獨特的動態，顯然Nvidia與其他實驗室密切合作，但他們並不在同一家公司旗下。那麼，當它運作得非常好時，是什麼樣子的？

Oriol Vinyals：正如我之前解釋的，我回想起幾個時刻。即使是Deep Learning在Google內部，當時也仍需證明自己。但我記得，肯定是在2013年，也許是2014年，我們一群人，我想是我、Jeff Hinton、Jeff Dean和Ilya，在一個房間裏試圖決定，服務器應該有什麼配置？當時我們顯然有一些CPU，一些GPU，你試圖基於你對研究的了解、模型的發展方向來做出猜測，並且你真的可以產生那種影響。當然，會有延遲迴報，因為這只是一項投資，只有幾個月甚至幾年後，才能在數據中心裏變成現實。

所以我一直參與其中，並且我覺得那太棒了，我想我們當時嘗試去預測研究領域將會發生什麼。在早期，那甚至更難，但我認為能夠真正施加影響，是一個非常特權的位置。我們當然也這麼做。尤其是和Jeff一起，他幾乎在Google存在的整個時期，都在深入思考基礎設施，所以去思考「這些模型正朝這個方向發展，然後進行這些投資」就非常有趣。因為它們有一定的延遲，而身處同一屋檐下，能看到我們所看到的，真的非常非常有幫助。我曾在非常艱難的早期見過這一幕，並且它持續發生、越變越好。當然，某種程度上它減少了不確定性，讓工作更容易，但依然是一個令人着迷的選擇，對公司的命運等有着深遠的影響。

Jacob Effron：這真是一場引人入勝的對話。我覺得我可以和你聊很久，但那會耽誤我們通向AGI的進程。所以，我想確保把最後的發言權留給你。你有什麼想和我們的聽衆分享的嗎？或者想向他們推薦的研究，I/O大會上的任何內容，舞台交給你。

Oriol Vinyals：我認為，對於AI領域的任何事情，現在都是一個令人着迷的時代。所以，如果你是一個用戶，去使用這些模型。如果你是一個建設者，使用這些模型去構建任何你做的東西，即使你認為它和AI毫無關係。請務必玩玩這些模型。它們令人驚歎，而且只會變得更好。

Jacob Effron：太棒了，謝謝你，這是一場非常精彩的對話。我是Jacob Ephron，你正在收聽的是Unsupervised Learning，一個讓我能與AI領域最聰明的人交談，向他們提出大量關於模型正在發生什麼、以及它對世界和商業意味着什麼的播客。我希望這很清楚。我從中獲得了巨大的樂趣，這是一個我在Redpoint擔任投資人的日常工作之外的業餘項目。但我們能請到這些了不起的嘉賓，真正依靠的是像你一樣的聽衆訂閱播客、並與朋友分享。這最終是讓這一切運轉起來的真正原因。所以，請考慮這樣做，非常感謝你的支持和收聽。我們下期節目再見。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

對話Gemini負責人：下一代AGI的三條主線，世界模型負責理解，Agent負責行動，Memory負責進化

熱議股票