本文來自微信公衆號:硅谷101,作者:張珺玥,原文標題:《全面解析「世界模型」:定義、路線、實踐與AGI的更近一步》,頭圖來自:AI生成
如今的AI看起來似乎「無所不能」:能寫深奧的論文、複雜的代碼,做出頂級的畫面和視頻。然而,它仍然缺乏理解世界、預測世界以及在世界裏推演並行動的能力。
而為了解決這個問題,OpenAI、谷歌、微軟等大公司,Yann LeCun、李飛飛等頂尖學者都開始搶着研究同一件事,那就是——世界模型。
不少AI科學家認為,隨着多模態走向普及和成熟,如果這條技術線完全跑通,它將徹底重塑整個AI格局。但我們也注意到,「世界模型」的爆火也帶來了新的問題:彷彿整個AI圈,一夜之間都變成了「世界模型」:無論是做視頻生成的、做機器人的,還是自動駕駛、遊戲開發等等,只要跟「世界」沾點邊,幾乎都是世界模型。
世界模型到底是什麼,它跟大語言模型有什麼區別?這些看起來完全不同的路線,是在做同一件事嗎?世界模型的到來,又會給各行各業以及整個社會帶來什麼樣的改變?以及,它會是人類通往AGI的終極密碼嗎?
一、什麼是世界模型?
關於世界模型的定義,目前仍然還沒有一個非常清晰的、被所有人都認可的說法。但我們可以先來聊一聊這個概念的起源,以及它究竟想解決什麼事情。
先從一個再簡單不過的問題開始:你是怎麼知道,一杯水放在桌邊,它可能會掉下去的呢?
科學家們認為,人類之所以能預測杯子會掉落、門往哪邊開、球會順着斜坡滾,是因為從很小的時候,我們就在腦子裏構建了一個「世界怎麼運作」的模型。我們能預判下一秒會發生什麼,能想象「如果我這麼做,會怎麼樣」,並在腦海中提前排演各種可能性,在認知科學中,這被稱為心智模型(Mental Model)。
早在上個世紀,科學家們就已經開始研究人類的心智模型。1943年,Kenneth Craik在其著作《解釋的本質》中就提出:人在對現實作出反應之前,會先在大腦中構建一個「小規模的世界模型」,用它來模擬可能發生的過程,再據此選擇行動。也就是說,我們每個人腦子裏,都有一個看不見的「小世界」。
既然人類智能依賴於這樣的內部世界,很多AI研究者也開始追問:機器要想具備真正的智能,是否也需要一個屬於自己的世界?
於是,在AI和強化學習的早期研究中,這個思想以不同的名字反覆出現。比如在1991年,Richard Sutton、Doina Precup和Satinder Singh在論文《An Integrated Architecture for Learning, Planning, and Reacting》中提出了後來被稱為Dyna架構的設計思路。
Dyna的核心在於:智能體在學習行動策略的同時,也要學習model of the world。也就是,當我採取某個動作之後,世界會如何變化,這也是第一次將「世界模型」明確確立為智能體內部的一項基礎能力。
在此之後,世界模型並沒有沿着單一路線發展,而是在不同研究領域中被不斷拆解、強化和改寫。比如在強化學習和機器人中,它體現為Forward Model;在自動控制和工業系統中,則發展出了Model Predictive Control(模型預測控制)。
這些理論的名字雖然不同,但背後共享着同一個核心假設:智能體之所以能做出更好的決策,不是因為反應更快,而是因為它能在行動之前,在內部世界中先「看到未來」。
在此後在很長一段時間裏,世界模型更多停留在偏理論、偏算法的層面,直到深度學習和表示學習逐漸成熟。2018年,Google Brain的David Ha與深度學習元老級教父Jürgen Schmidhuber共同發表了論文《World Models》。這篇論文正式提出了「世界模型」(World models)這個精煉化的名稱,同時還給出了一個比較簡潔的世界模型理解框架:
世界模型=觀察世界(V)+預測世界(M)+在內部世界中學習行動(C),對應的是視覺(Vision)、記憶(Memory)和控制(Controller)三個核心模塊。
我們用一個簡單的例子來解釋一下:想象你是一個從未打過乒乓球的新手,當你站在球台前,眼睛接收到的是大量複雜的視覺信息。視覺模塊(V)並不會記住每一個像素,而是會自動提取出對決策真正重要的部分,它將原本上百萬像素的畫面壓縮成僅有幾十個數字的精華編碼。
記憶模塊(M)接收到這些編碼後,便立即開始內部模擬。經過多次練習,你的大腦已經建立起對乒乓球運動規律的理解。記憶模塊就像你內心的「物理引擎」,能預測「如果我這樣做,會發生什麼」。
所以,當球飛來時,視覺模塊提取特徵,記憶模塊模擬方案,而控制模塊(C)就主要是在記憶模塊(M)所創造的「內部世界」中進行訓練,你並不需要真的揮拍一百次試錯,而是在記憶模塊的「夢境」中找到最佳策略後,再在現實中只執行一次最優解。而這種「想象-規劃-行動」的認知過程,正是人類智能的核心特徵。
在這篇論文中,他們也做出了一個有意思的demo,讓模型在完全虛擬的小世界裏學會了玩一款賽車遊戲,證明了AI可以像人類一樣,通過內部世界的想象來進行學習。
總結下來,研究者們普遍認為世界模型應該具有三大特質:
第一,表示世界(Representation)。模型能夠理解所處的環境裏有什麼、物體在哪裏,以及物與物之間是什麼關係。
第二,預測未來(Prediction)。它能夠對事件進行模擬和生成,如果我推一下杯子、打開一扇門、往前走兩步,世界會發生什麼樣的改變。
第三,在世界裏規劃和行動(Planning & Control)。當能預測接下來會發生什麼之後,我應該如何採取行動。
Yiqi Zhao(Product Design Lead, Meta);
它是把世界抽象到一個潛在的、被壓縮過的空間裏,在這個潛在空間裏,你能夠通過學到的物理規律,去做對未來的預測,形成一個對真實世界的模擬器。相當於它是一個模擬系統,有點像是一個縮小的平行宇宙。這感覺就像如果你有一個真正的AI大腦,它就擁有自己的AI世界觀。因為可以做預測,所以就可以去做未來的推演,就可以做決策。
世界模型的本質,就是想讓AI從一個「只會回答問題」的語言機器,走向能夠真正像人類一樣「會觀察、會推理、會行動」的真正智能體。但是問題來了,作為一個上個世紀就開始被研究的概念,為什麼突然在最近一段時間火了起來?它跟我們現在所熟悉的大語言模型又有什麼區別或是聯繫呢?
二、為什麼要研究世界模型?
世界模型與大語言模型的不同
從主要任務和預測目標來看:
大語言模型的目標是生成在語言維度上最合理的序列,預測的是下一個詞或token。比如你問「杯子會從桌子上掉下來嗎?」,它回答「會」,因為這是在無數文本里出現過的正確答案。
世界模型的任務是預測「下一秒世界會變成什麼樣」,預測的是下一幀畫面、下一步動作、下一次狀態變化,它需要理解物理規律、空間關係和動態變化。
從訓練數據來看:
大語言模型主要依賴文本數據,也包括一些圖像和視頻,數據特點是以靜態內容為主。
世界模型則主要依賴視頻等動態數據,包括攝像頭看到的畫面、機器人的傳感器反饋、動作的結果、環境的變化,數據特點是動態的、時序性的。
從輸出結果看:
大語言模型輸出的是語言或圖像等內容。
世界模型輸出的是對未來狀態的預測、對行為的模擬,以及可執行的行動方案。
從學習方式看:
大語言模型是通過語言間接理解世界,更像一個「知識容器」。
世界模型是通過交互和推演直接理解世界,不僅能「看見」,還能「預測」和「干預」。
因此,大語言模型更適合對話、寫作、翻譯、問答。而世界模型更適合機器人、自動駕駛、物理模擬和決策系統這些必須進入真實世界的任務。
此前,李飛飛也曾在採訪中精煉總結過兩者在目的和訓練模態上的不同:
李飛飛(World Labs創始人、資深AI科學家):
一種是關於表達,另一種是關於觀察和行動。因此它們本質上是截然不同的模態。大型語言模型的基本單元是詞庫,無論是字母還是單詞,而我們使用的世界模型的基本單元是像素或體素。
大語言模型路線遇到瓶頸了嗎?
雖然大語言模型和世界模型是兩條不一樣的技術路線,但它們的終極目標都是要實現通用人工智能。那麼現在為什麼要突然非常關注世界模型呢?是因為大語言模型這條路已經走不動了嗎?
關於這個問題,研究界目前仍然存在着不同的觀點。
一些研究者們旗幟鮮明地提出,大語言模型是死路,這一派的代表人物之一就是Yann LeCun。
離開工作了12年的Meta後,這位65歲的圖靈獎得主、深度學習先驅並沒有選擇退休,而是回到巴黎創立了一家名為Advanced Machine Intelligence的公司。他要做的事情,與硅谷主流的大模型路線截然不同。
他在最近的採訪中表示,AI領域的Moravec悖論一直存在。所謂Moravec悖論,是指AI可以輕鬆處理對人類極其困難的高智力任務,比如下棋、微積分、讀論文。但直覺性的感知、社交等人類和動物輕鬆完成的初級技能,對機器卻極其困難。Yann LeCun認為,這個悖論至今未解決,就是因為我們研究AI的路線錯了。
人類智能的核心在於不依賴海量數據就能自主學習,但現在的LLM是在擬合語言的統計相關性,對現實世界幾乎沒有直接建模能力,如果繼續沿着LLM路線「堆量」,最多隻能做出一個更會說話、更會寫字的模型。
他甚至放言稱,再過5年,GPT之類的大語言模型就不會有人再用了。而關於大家都在憧憬AGI很快到來,他也認為是一種幻想,最樂觀也要5到10年,機器的智能才能勉強接近一隻狗。
Yann LeCun(Meta前首席AI科學家、深度學習先驅、圖靈獎得主):
那些吹噓一兩年內就能實現通用人工智能的人,純粹是癡人說夢,徹頭徹尾的妄想,因為現實世界遠比這複雜得多。你不可能通過「將世界token化」和使用大語言模型來解決這個問題,這根本不可能實現。
而除了Yann LeCun之外,學術界中有不少的大佬級人物也都持有類似的觀點,比如圖靈獎獲得者、強化學習之父Richard Sutton。
Richard Sutton(強化學習之父、圖靈獎得主):
大語言模型試圖在沒有目標、也沒有‘好壞優劣’這種評價標準的情況下運作,這其實一開始就走錯了方向。
李飛飛最近也在密集地發聲,她說大語言模型仍然是黑暗中的文字匠人:能言善辯,卻缺乏經驗;知識淵博,卻脫離現實。
所以,大語言模型這條路線是不是真的走不通了呢?嚴格來說,現在還沒有標準答案,但有幾件事,大家開始有了越來越多的共識:
首先,單純把模型做得更大,已經不會再像過去那樣帶來立竿見影的突破。規模繼續上去當然可以變強,但在算力、數據、能源、成本這些硬約束下,它的性價比正在迅速下降。
其次,AI需要更直接地接觸「真實世界」。語言世界太乾淨了,它無法提供現實世界裏那種混亂、連續、充滿不確定性的因果經驗。AI想繼續往前走,需要新的輸入方式、需要多模態感知、需要和環境互動。
最後,大家普遍認為世界模型和大模型將會是一個互補的關係。陳羽北就在訪談中提到,世界模型並不是要完全將大語言模型推翻重來,而是為大語言模型補上「現實世界」的維度。
陳羽北(加州大學戴維斯分校電子與計算機工程系助理教授):
在語言中我們有了GPT的話,當預訓練的好處達到一定程度的時候,它可以被快速地變成任何的下游應用。世界模型可以被認為是一個大號的GPT,它包含了感知和控制。如果我們在這裏也能獲得根本上的成功,未來我們所有的機器人、所有的智能體都可以用這樣預訓練和後訓練的方式產生,這有可能會徹底地解鎖一些AI的應用場景。
為什麼是現在?
既然世界模型如此重要,為什麼最近一段時間它才突然被行業普遍討論和關注呢?
第一個原因就是上文我們所討論的,大模型的原生能力遇到了天花板,但人們對AI在現實生活中的期待卻越來越高。
另一個原因是,隨着多模態時代的到來,讓我們第一次有能力訓練「真正的世界模型」。訓練世界模型需要海量的視覺與動作數據、多模態傳感器輸入、大規模視頻模型能力以及足夠強的算力來支持「世界推演」,這些條件直到最近幾年才逐步成熟。
總得來說,因為大模型的天花板已經顯現,而且全行業都在邁向具身智能,再加上我們現在有了讓AI看世界、理解世界的技術基礎,世界模型就順理成章地成為了下一輪AI競賽的核心舞台。而這些嘗試,很快在行業裏分成了幾條不同的技術流派。
三、當前推進世界模型的主要路線
雖然世界模型的最終目標看起來是相對清晰的,但落實在實踐探索層面,卻常常會讓人感到困惑。比如有的在做視頻生成,有的在做3D場景,有的在做機器人,有的在做智能體,它們都叫做世界模型,但在做的事情似乎完全不同。
我們究竟應該怎麼去理解,現在整個行業到底在做些什麼?
關於這個問題,我們的嘉賓Yiqi結合世界模型的理論知識以及她在Meta的一些實踐觀察,在採訪中提出了一個我們認為非常有幫助於大家理解的框架,就是把整個世界模型領域拆解成「三層結構」,在這個架構中:
底層,是世界模型的思想與範式。也就是我們之前所討論的,世界模型的抽象、預測、規劃特徵,以及它要解決的問題。這一層涉及到目前很多研究層面的創新。
第二層,是世界模型的當前的「表現形式」。指模型到底是用什麼方式來表示世界和預測世界,世界應該如何被生成出來。
第三層,是世界模型的「目的層」,也就是智能體訓練,讓AI最終能在這個世界裏行動、做任務、完成決策。
Yiqi Zhao(Product Design Lead, Meta):
Latent MDP(潛在狀態表示)+Learn Dynamics(環境動力學模型)+Simulator(內部模擬能力),這三者結合起來就是底層的世界模型核心層級,但是它是抽象的、不可見的。
如果要讓人和AI看到,需要有一個表現形式,這個表現形式需要AI幫忙生成,所以生成的層級會比它之前的層級稍微高一點。
等生成完了之後,AI大腦裏有了世界觀,就可以看到這個世界了。那接下來這個世界裏需要有東西,讓人和AI智能體都要活在裏面。
所以智能體在裏面存在的方式就是:我終於有一個宇宙了,我要在裏面玩、學習,要對這個世界造成影響,和這個世界有一個交互,互相產生影響。
四、世界模型的表現形式:世界生成
如果我們把當前產業界的主要嘗試放在這個框架中去看的話,它們其實很多都聚焦在第二層級:世界生成。這也是目前整個領域最熱鬧的地方。
為什麼要先做世界生成
很多研究者認為,構建世界模型的第一步不是讓AI直接「推理」或「行動」,而是讓它能夠去「生成世界」,這看似簡單,卻是世界模型的根基。
所謂「理解世界」,本質是理解世界如何隨時間和行為變化。物體如何移動、光線如何變化、風吹過樹葉會發生什麼,要獲得這種對「世界演化」的直覺,最直接的方式就是讓模型先能夠生成一個可連續變化的世界。
此外,強大的世界生成模型能為智能體提供廉價的訓練場。比如訓練一個機器人倒咖啡,讓它在現實中倒幾萬次、打碎幾千個杯子顯然性價比太低,而地震、火災、車禍這些邊緣場景也可以在虛擬世界中自由進行反事實推理的實踐。
因此,世界生成既是世界模型的外殼,也是整個體系的入口。而在世界生成這件事情上,目前主要有兩大技術路線:
第一類,用「視頻生成」的方式去重建世界,包括OpenAI Sora、谷歌的Genie等。
第二類,用「3D空間生成」的方式去顯式建模世界,其中的代表是李飛飛的World Labs。
視頻生成路線
視頻生成應該是目前最具代表性的、也是最為大衆所熟悉的世界模型路線。它的目標很直觀,就是嘗試讓AI直接生成一個「能動起來的世界」,並讓這個世界隨着時間流動、演化、變化。
OpenAI在發布Sora之初,它們就將其定義為一個「世界模擬器」。Sora並不是簡單地把一段視頻用靜態圖像一張張「拼出來」,而是讓畫面裏的事物能夠隨着時間連續地演化。這些視頻細節之所以令人震撼,是因為人們發現,模型似乎開始真的「理解」了事物變化的背後規律,它知道光線在材質上如何變化,知道一個物體在受到外力後該怎樣移動。而目前與Sora類似的,還有Seedance、Veo、Kling等一系列視頻生成模型。
如果說Sora等模型是能夠去「播放一個世界」,Google的Genie系列模型則是讓我們能去「探索一個世界」。在Genie 3中,模型能夠根據用戶的文本或圖像提示,實時生成可供用戶及智能體進行互動的虛擬環境。相比前代產品,Genie 3的核心突破在於「實時交互性」和「長時間一致性」,用戶可以跟模型進行長達數分鐘的互動。
Yiqi Zhao(Product Design Lead, Meta):
Genie 3跟傳統的視頻生成模型很不同的一點在於,它生成出來的內容,你是可以跟它實時交互的。你生成出來的內容,比如黑板上寫了字,我走到別的地方回來之後這個字它還在黑板上。說明它雖然還是有frame by frame(逐幀生成)的生成方式,但是它已經能夠記住世界裏面的這些狀態。
Genie 3的這種可控性,意味着模型內部不再只是預測下一幀是什麼,而是已經在模擬「未來的世界狀態」。它讓視頻生成從「播放」走向「交互」,開始從「電影式生成」走向「遊戲式模擬」,更接近一個真正的「世界引擎」,也更接近智能體將來需要使用的環境。
就在今年1月,谷歌還推出了基於Genie 3打造的實驗室原型Project Genie,首次將Genie 3的能力第一次封裝成為了一個「人人都可以直接上手體驗」的產品形態。它的強大在於多模態的深度協同:由Gemini提供邏輯支撐,Nano Banana Pro生成高精度的場景與角色,再由核心引擎Genie 3將靜態設計「激活」為可互動的3D世界。依託TPU v5的算力,Project Genie實現了720p/24fps的實時環境渲染,同時允許用戶對同一個世界進行「重新混剪」,具有長達60秒的強一致性記憶。
Project Genie的發布意味着「世界模型」或許開始真正從PPT走進現實,它不再只是個會「變魔術」的算法,而是通過一句話就能「變」出一個可運行的小型遊戲世界的生產力工具。
從行業視角來看,視頻生成路線有一個非常明顯的優勢就是它的結果「看得見」。我們能直接觀察世界模型是否具備物理一致性、是否理解時空結構,而且它能快速商業化落地,影視、廣告、教育、遊戲都能立刻使用。
從技術角度看,視頻生成的優點也很突出:首先,訓練數據相對容易獲得。互聯網上有大量真實世界視頻,為模型學習世界規律提供了訓練空間。其次,它對Scaling Law非常敏感,模型規模越大、數據越多,視頻的一致性和物理合理性就呈指數級提升。此外,視頻數據天然包含多樣化場景,模型泛化能力也更強。
正因為這種「可觀察性」和「可規模化訓練」的組合,讓視頻生成路線在過去一、兩年成為世界模型最引人注目的方向。
但視頻生成的侷限也同樣明顯,最重要的一點是,雖然它的輸出是「顯式」的,但內部對世界的理解是「隱式」的,我們無法直接讀取,也無法將能力直接移植到機器人或決策系統中。
視頻生成路線其實和大語言模型很像,兩者都是典型「scale-driven(規模驅動)模型」。語言模型通過學習互聯網文本掌握語言統計規律,視頻模型通過學習海量視頻掌握視覺統計規律,區別在於:視頻數據天然包含物體運動、加速度、重力等物理特徵,因此視頻模型能更直接地看到真實世界的運作方式。
但和語言模型一樣,視頻模型理解的世界規律依然「藏在權重裏」。語言模型預測下一個token,視頻模型預測下一幀,但都很難告訴你世界內部的結構是什麼。比如你讓Sora生成一輛車的行駛視頻,造型和光影可能很逼真,但如果你問,這輛車的長寬高是多少?被擋住的輪胎在哪裏?它答不上來。因為Sora並沒有構建一個3D的幾何車輛模型,它只是學到了像素組合的概率分佈。
3D生成(空間智能)路線
所以視頻生成雖然是目前最直觀、最能應用落地的一步,但它目前也只是畫出了世界的一層皮,但還缺少有血有肉的框架。那如何才能勾勒出世界表層下的框架呢?
李飛飛提出的思路是:3D生成,也就是空間智能。
與視頻生成相比,3D生成路線走的是一條截然不同的技術選擇,不是把世界畫出來,而是把世界建出來。這也是李飛飛領導創建的World Labs目前的技術路線。它們不追求畫面有多逼真或「電影級」連續性,而是更關注世界的結構,包括物體在哪裏?空間的幾何關係是什麼?物體之間如何相互影響?生成的世界是否能被「進入」與「操作」?
WorldLabs最新發布的模型叫Marble,它的特點是給它一個語言指令、一張照片或視頻,就能通過高斯潑濺技術重建出完整的3D場景結構。簡單來說,Marble就像建築師,看到圖片時不只看到「像素」,而是看到背後的三維結構。比如你同樣問它圖片裏汽車的長寬高,它能回答出是長4.5米、寬1.8米,還能輸出3D網格文件。
為什麼李飛飛如此強調3D呢?因為她認為真正的世界就不是2D的,而是3D的,AI必須理解空間,才能理解世界。人類能抓住物體、避開障礙、記住空間,是因為我們天生具備構建3D模型的能力。機器人要抓取物體需要知道形狀、體積、位置,自動駕駛要理解空間和距離,這些都不是二維像素能表達的。AI要真正進入現實世界,首先要知道「世界的三維結構」。
從技術層面看,3D生成路線有個巨大優勢:與視頻模型的「隱式物理直覺」不同,它生成的是顯式結構,模型知道每個物體的具體位置,因此物理模擬、規劃、控制都更容易實現。一旦掌握這些顯式信息,它就能繼承傳統物理引擎的優勢,確保碰撞、遮擋、施力等表現嚴格正確,成為「可操作世界模型」的底座。
此外,3D生成在遊戲、影視製作、室內設計等場景也能快速落地,讓它能夠在商業轉化上具有優勢。不久前,Worldlabs宣佈了最新一輪10億美元的孖展,估值達到了50億美元,短短一年半時間,它的估值飆升了5倍之多,一定程度上也反映了市場對於「3D生成」這條路線潛力的認可。
雖然3D生成對世界模型的發展具有巨大的戰略意義,但它的實現難度也要比視頻生成大很多:
首先是訓練數據稀缺。互聯網是巨大的2D視頻礦山,但3D數據卻很少。高質量3D數據主要靠LiDAR、結構光掃描儀等專業設備採集,不僅設備貴,流程還繁瑣,標註成本也比2D高出一個量級。
其次是幾何結構難建。3D模型需要確保生成的物體封閉、無穿模、無破損,而預測柔體、流體、鏈式碰撞等複雜3D動態交互則難度更大。
最後是對算力需求很大。無論是訓練中的3D渲染還是實時物理模擬,計算量都遠超2D模型,直接推高了研究門檻。
胡淵鳴(Meshy AI CEO):
我們如果要生成一張1024x1024分辨率的圖片,大約一百萬個像素。但是如果要生成一個3D的模型,最大的挑戰就是多出來一個新的維度,就不太可能直接用1024x1024x1024分辨率這樣的表示方式去做,計算量實在是太大了,所以大家就發明了很多新的創造性方法:
比如Meshy用的技術路線,是基於擴散模型或者自迴歸模型,通常先生成一個低分辨率版本的模型,然後再去把它Upscale(上採樣)。在Upscale(上採樣)的過程中,就會發現有一些區域不屬於我們關心的範圍,所以在這種情況下,我們就可以把計算量集中在我們特別關心的區域。
總結來說,3D生成路線能夠更加真實地去還原世界,但它實現難度更大、成本更高。
不過我們以上討論的其實都是如何把世界生成出來,但光有生成,還遠遠不夠,因為世界模型的真正的目標不是去生成一個世界,而是要讓AI在這個世界裏行動。
五、世界模型的目的:智能體訓練
如果「世界生成」是為了讓AI看見世界、重建世界,「智能體訓練」就是要讓AI能在這個世界裏「做事」,從「世界長什麼樣」走向「我能在這個世界裏做什麼」。目前,業界主要有兩種探索路線。
基於虛擬世界訓練路線:SIMA
第一條路線,就是直接把世界生成模型當成「訓練環境」,讓AI在虛擬生成的世界裏不斷去犯錯、探索、總結,最終學會一套可以遷移到真實世界的能力,這一類的代表是Google SIMA。
SIMA的思路非常直接:既然現實世界太複雜、真實的訓練太昂貴,那我們就用虛擬世界來教AI如何行動,而遊戲就成為了它最佳的訓練場。視頻遊戲作為複雜、可交互、實時反饋的環境,一直是AI發展的搖籃,從早期的Atari到AlphaStar在《星際爭霸II》中打到世界前0.2%,DeepMind一直用遊戲訓練更智能的AI。
而SIMA的訓練方式就是把AI放進很多不同類型的遊戲環境裏去「練級」。最新的SIMA 2還將Gemini嵌入內核,並首次使用Genie 3生成的遊戲世界進行了訓練。
SIMA 2展現出幾個令人矚目的能力突破:
首先,它不僅能「跟指令做事」,還能「自己思考」。它可以理解複雜、多步、抽象的任務,在陌生環境中自主探索、規劃行動、尋找解決方案。
其次,它具有強大的「泛化能力」,能在從未見過的遊戲環境中表現出色。比如在Genie實時生成的世界中仍能合理辨別方向、理解指令、採取有意義的行動。此外,SIMA 2被設計為能跨遊戲、跨環境執行任務的通用AI智能體,這也為將來的具身機器人遷移奠定了基礎。
SIMA想做的事情,顯然比「玩遊戲」本身更大。遊戲只是現實世界的縮影,它最終想要實現的,是讓AI能在任何3D世界裏行動、探索、推理、解決問題。然而對於這個目標,不是所有研究者都認為「要行動,就必須先生成一個世界」。以Yann LeCun代表的另一派,就選擇了一條完全不同的路線。
直接學習世界的抽象結構:JEPA
Yann LeCun實現世界模型的思路是:不用去把世界「畫」出來,而是讓AI直接去學習世界的抽象結構。
在他看來,不管是生成圖片、生成視頻,還是生成3D世界,生成式模型都有一個共同的問題:消耗了大量算力去「畫細節」,卻未必真正理解了世界的結構。比如人類學習走路時,我們只需要知道:地面在哪裏,障礙物在哪裏,下一步該往哪走。
理解世界的結構,比生成世界的外觀更重要。這正是Yann LeCun所提出的JEPA(Joint Embedding Predictive Architecture,聯合嵌入預測架構)理論的核心思想。JEPA不預測圖像、不預測像素,也不重建視覺內容,它做的事情是把真實世界壓縮成一個抽象的、高維的潛在表示,然後在這個潛在空間裏進行預測。預測的目標可以是空間上被遮擋的區域,也可以是時間上的後續狀態。
我們來舉個簡單的例子:如果你輕輕推一個球,視頻模型要預測的是下一幀裏球的位置、陰影、光照、材質反射。但JEPA不關心這些,它只關心球會往哪個方向滾,速度會怎麼變,會不會撞到障礙物,哪些變化與任務和決策相關。它學習的是未來的結構,而不是未來的畫面。
JEPA的基本結構可以拆成三件事:首先,用Encoder(編碼器)將視覺和動作壓縮成抽象表徵,然後用Predictor(預測器)預測這些抽象狀態在未來如何變化,最後將預測結果與真實未來狀態的編碼進行對齊,讓模型學會捕捉世界的關鍵因果結構。
基於JEPA架構,Yann LeCun在Meta也先後發布了I-JEPA和V-JEPA,前者讓AI理解靜態圖像的結構,後者則讓AI學習視頻中世界隨時間變化的規律。
JEPA的路線背後,有非常重要的技術動機:
首先,生成像素既昂貴又低效,而絕大多數像素信息與行動決策無關。JEPA不「畫世界」,因此計算成本更低。
其次,由於只保留關鍵結構信息,JEPA更容易捕捉因果關係,也更具跨場景、跨任務的泛化能力。
更重要的是,這種抽象、結構化的世界表示,更接近機器人和具身智能真正需要的「可操作世界」。比如對於機器人來說,它不需要知道物體的光影紋理,它只需要知道物體的可達性、跟自己的位置關係以及下一步該做什麼,而JEPA的輸出的就是這種結構化的抽象信息。
早在幾年前,Yann LeCun就已經在為JEPA路線搖旗吶喊了,但它至今仍然未能成為世界模型的研究的主流,因為JEPA路線在實際推進中面臨了很多現實問題:
首先,它是「不可見的」。Sora能用逼真的畫面震撼所有人,Genie可以生成可探索的遊戲世界,WorldLabs能用3D場景告訴你「我理解了空間結構」。但JEPA學到的所有東西,都藏在一個抽象的潛在空間裏,這意味着我們難以直接看到和驗證模型到底「理解了什麼」。
其次,它的自監督目標極難設計。JEPA不像視頻生成那樣有現成的目標,你給它一幀讓它預測下一幀,JEPA想預測的是「未來的結構」。但什麼纔是「結構」?哪些因素該保留、哪些該忽略?目前仍沒有統一答案。
最後,缺乏統一的評估和規模化推進體系。JEPA的表徵質量藏在潛在空間裏,研究社區多依賴下游任務或行為表現來評估模型,缺乏類似圖像生成或語言模型那樣統一的benchmark(基準指標),這也使不同設計路線之間的效果比較變得更加困難。正因為這些限制,JEPA更像一個「世界模型的前額葉原型」,方向很可能是對的,但距離成熟落地還仍然有一段距離。
到這裏,我們把世界模型最核心的幾條技術路線都梳理了一遍:有人用視頻把世界「畫」出來;有人用 3D 把世界「搭」出來;有人在虛擬世界裏訓練行動智能;也有人乾脆不畫世界,想讓AI直接學習世界的結構。
當然,還有一些我們沒有展開的路線:比如Dreamer這一類以動力學為核心的世界模型更專注於控制與想象;有的試圖從物理規律出發,用可微分模擬器去逼近真實世界;也有越來越多工作,正在模糊世界模型、預測模型與決策模型之間的邊界。
這些路線看起來方向不同,但它們正在指向同一個未來:讓AI不再只是「輸出信息」,而是真正理解世界、推理世界、在世界裏行動。
Yiqi表示,因為目前世界模型在落地層面還在早期階段,並沒有看到哪一條路線具體的商業應用形式,所以包括Meta在內的大廠們,實際是在各個路線上都在做佈局和研究。
Yiqi Zhao(Product Design Lead, Meta):
Meta在世界模型的路線上,不同的技術路線全部都做了,主要是因為它的用戶場景和垂直場景的需求不同。所以為遊戲服務的我們就做了AI遊戲引擎,叫做Meta Horizon Studio。為內容創作來服務,我們就做了純視頻方向的。為了數字重建和3D重建,我們就做了高斯潑濺的方式。所以我們希望能夠把方方面面的需求都概括進去,各種場景都適用,我相信其他公司也是這樣想的。
不過可以預見的是,當世界模型真正成熟,對產業帶來的改變,絕對不會只是讓「視頻生產效率更高」這麼簡單,它將是一次橫跨軟件、硬件、製造、娛樂等衆多行業的系統性衝擊。
六、世界模型會改寫哪些關鍵行業?
機器人
如果說有哪個行業,會最直接地被世界模型撬動,那一定是機器人行業。
過去幾十年,機器人的發展受制於硬件、算力和應用場景等多重因素。但更深層、也更關鍵的瓶頸在於它們還不「懂」世界,因此難以實現跨環境的遷移和泛化。今天的絕大多數機器人看起來很厲害,但它們做的一切,本質上都是「被編程好的動作」,所以只要環境稍微變化,它們就會立刻「失能」。
機器人行業過去一直難以擴張的原因就在於:每一項新任務,都意味着一次新的工程項目。
而世界模型帶來的,是讓機器人擁有「世界的內部模型」。它能看到現在,也能預測未來,知道物體怎麼動,也能推斷自己的動作會產生什麼後果。它能先在腦子裏模擬,再決定要不要執行。
比如它可以模擬箱子會不會翻倒、門把的角度能否順利轉動、路徑是否足夠安全、抓取是否會失敗。過去要花工程師幾十小時調參的任務,現在機器人在模擬世界裏自主練習就能掌握。
更重要的是,機器人開始具備遷移能力。它不需要每次換一個物體、換一個場景、換一個任務都重新示教一遍,它能把內部模型裏學到的規律遷移到現實世界。儘管仿真到現實的遷移至今仍是一個開放難題,世界模型有望大幅降低這道門檻,讓機器人面對從未見過的物品時,仍然能做出合理決策。
這對機器人來說是一次範式級的改變。無論是家庭服務機器人、倉儲機器人、工廠協作機器人、餐飲零售機器人,還是專業級的巡檢、建築、醫療輔助手臂,世界模型都可能成為它們跨過智能門檻的那把鑰匙。
自動駕駛
大約從5年前開始,馬斯克就開始講L5要來了,但為什麼時至今天,L5級的自動駕駛依然沒有全面普及?背後原因之一就在於:系統雖然「看得見世界」,卻還難以真正預測世界。
我們現在常說的L2、L3自動駕駛,本質上依賴的仍然是「感知—預測—規劃」的分層體系:識別車、人、車道線、交通燈,再通過規劃系統給車輛下指令。
特斯拉更強調用大規模真實道路數據,通過端到端方式不斷逼近人類駕駛。而Waymo則長期在高度結構化的系統中,追求可驗證的安全性。但無論是哪種路線,都面臨一個共同的問題:它們對「現在」的感知已經很強,卻很難穩定地理解「接下來會發生什麼」。
再加上極端天氣、突發事故、不規範行人等長尾場景在真實道路中極其稀少,也成為制約自動駕駛規模化的關鍵瓶頸。
而這正是世界模型開始真正進入工程體系的地方。比如Waymo在最近的技術博客中提出,他們正在將自動駕駛系統的核心,構建為一個Foundation model(基礎模型),它採用了「分段式端到端」的架構,內部可以進行端到端訓練和反向傳播,同時又保留了對世界的結構化表達。這個模型不只是完成單一任務,而是學習「世界如何運轉」,它被要求輸出物體、語義屬性和道路結構等中間表徵,讓系統在出錯時,能夠定位問題出在世界理解的哪一層。
這些結構化世界信息,也支撐起更高質量的仿真系統:不僅還原場景,還能在不同假設下預測交通參與者的行為,並在內部同時推演大量可能的決策路徑,從中篩選出最安全、最穩定的一條。這不再只是「識別」,也不只是「反應」,而是讓自動駕駛系統開始具備一種接近人類駕駛的預判能力。
也正因為如此,世界模型被認為是推動自動駕駛從局部可用,走向可驗證、安全的大規模商業化落地的核心技術之一。
穿戴式設備
如今我們所熟知的可穿戴設備,本質上還是停留在記錄層面,看上去很智能,但實際上卻並不理解你周圍的環境。而世界模型會讓這一切發生質變:
一方面,它能讓設備真正讀懂你的3D世界,實時推斷空間結構、物體關係和潛在風險,把數字內容自然融合進現實環境。另一方面,它的預測和規劃能力,會讓可穿戴設備從工具變成你的「數字夥伴」。理解你在什麼環境、看什麼、可能要做什麼,比如提前提醒路面溼滑,在灶底1識別缺少的食材,甚至在你開口前就意識到你需要幫助。
從更長遠看,這不只是設備升級,更是一種新的「人機關係」,世界模型會讓可穿戴設備,從「信息終端」變成隨身的「世界理解引擎」,眼鏡、耳機、手錶,都可能進化為與你共同生活、共同行動的智能體。而這,也可能會是下一代計算平台的起點。
內容生成、遊戲與影視製作
如果說機器人、自動駕駛等「具身智能」是世界模型在現實世界的落地,內容相關的產業,就是世界模型在「想象世界」裏的爆發奇點。
如今我們已經看到視頻生成模型所帶來的一些震撼效果,而世界模型的到來,可以讓未來的內容創作只需要給一個世界觀、一個任務、一個初始狀態,模型就能自動「長出一個世界」。比如在影視行業,一個導演不需要去反覆搭景、重拍、做模型,只需要定義「這是一座被雨水淹沒的城市」,AI就能生成整個城市的狀態變化。
而在遊戲行業,世界模型帶來的改變更是顛覆性的。過去的遊戲世界需要一磚一瓦搭建,地形、天氣、物理引擎、NPC行為、任務鏈等等條件,我們都需要數百人團隊、花費幾年時間,才能做出一個開放世界。但世界模型意味着遊戲世界不需要「製作」,而可以自動生成和進化。一個設計師只需要設定規則、生態、衝突,AI就能生長出森林、河流、生物、文化、經濟系統,甚至NPC的性格、記憶和演化方向。
胡淵鳴(Meshy AI CEO):
大家以前玩的遊戲都是靜止的遊戲,所有的規則已經被寫好了,有一個遊戲設計師和遊戲程序員去實現這個規則就可以了。但是如果我們在遊戲場景當中有這種生成式AI技術,就可以實現遊戲是on the fly(即時)生成的。比如谷歌的Genie 3,按上下左右鍵,它可以on the fly(即時)生成下一秒的東西。
我們在做的事情就是,先用3D的模型,再自己做一個多模態的大模型,這個大模型可以先生成角色的外形,然後再給它加上人物邏輯,包括它的性格等等各種各樣的形式的邏輯。我們通過這條路徑也可以實現一個世界模型。
所以對於整個內容行業來說,世界模型帶來的不僅僅是製作效率的提升,而是一場敘事方式、創作方式、內容形式的全面重寫。
AI Agent
世界模型的到來,還會加速AI Agent的進化。當我們今天在聊AI Agent的時候,很多討論其實都集中在Agent能不能更聰明、規劃能力夠不夠強、工具調用做得好不好。但如果退一步看,會發現一個更底層的問題一直沒有被真正解決:Agent到底是在什麼環境裏學會「行動」的?
從強化學習的視角看,Agent的一切能力,都來自與環境的交互:執行動作,接收反饋。但真實世界太昂貴、太緩慢,也太危險,幾乎不可能支撐大規模試錯。
而世界模型解決的,正是「環境」本身的問題。它通過學習真實系統的數據,在模型內部構建一個可運行的世界,當Agent採取行動時,世界模型可以直接推演這個動作可能帶來的結果。這樣Agent就可以在世界模型中進行大規模訓練,如果這個世界足夠接近真實,在虛擬環境中學到的能力,就可以穩定遷移到現實系統中。
世界模型並不是讓Agent立刻變得更聰明,而是第一次為Agent提供了一個可訓練、可試錯、接近真實的「內在世界」。這層世界底座,纔是真正決定AI Agent能否走向現實世界的關鍵。
所以世界模型改變的不只是某一個行業、某一個產品、某一種形態,而是整套人與世界互動的方式。陳羽北在採訪中就談到,如果世界模型真的從根本上走通了,甚至有可能創造出一種新的文明。
陳羽北(加州大學戴維斯分校電子與計算機工程系助理教授):
如果你能實現World model(世界模型),已經包羅萬象,把這個世界所有的邏輯問題和規律都掌握了,而且不是簡單的外延,而是可以在比較根本的程度上產生泛化,產生數據、產生意識,產生到超越人類的程度。那在給予一定意識的情況下,這個模型似乎已經具備了建立一個新的文明的能力。
七、世界模型的潛在風險
當然,任何足以改變技術版圖的突破都會帶來新的風險。而世界模型的風險,不再只是「胡說八道」那麼簡單:
首先,是更隱蔽、也更危險的模型幻覺。無論哪條路線,世界模型本質上都是在給AI構建一個高度逼真的「夢境」,讓它在其中模擬和推演。但虛擬世界永遠無法完全覆蓋真實世界,始終存在Sim-to-Real Gap(虛實差異)。語言模型的幻覺是編造事實,視頻模型的幻覺是畫面錯誤。而世界模型的幻覺,出現在整個「世界結構」裏,比如誤判物體重量、高估動作可行性、低估碰撞後果,甚至構建了錯誤的因果關係。
這些問題不一定立刻被察覺,卻會直接影響智能體的決策與行動,進而導致機器人失常、自動駕駛偏離,甚至關鍵系統被系統性誤導。所以當世界模型出現幻覺,錯誤將是「系統級」的,這也是更難發現、更難對齊的風險。
其次,是世界模型帶來的權力集中問題。未來可能只有極少數機構具備構建和運行世界模型的能力,而成熟的世界模型,意味着前所未有的預測能力。對市場、社會行為、羣體反應的高精度推演,可能帶來新的信息壟斷,也可能被用於更高效的社會操控與商業操縱。
更重要的是,當世界模型越來越真實,虛擬與現實的邊界會越來越模糊,「自主智能體」的到來也加大了AI不受控的風險。
一旦AI真正理解並模擬世界,深度僞造與虛假場景將進入「超真實」階段,AR/VR世界可能與現實幾乎無差,甚至更具吸引力。與此同時,當越來越多真實系統開始依賴這些模型,現實世界本身,也可能反過來「對齊」模型的假設。而當世界模型變成決策底座,內部狀態難以審計、推理過程不可見,我們甚至很難判斷它究竟「理解」了什麼、在朝什麼方向演化,這也意味着,它所帶來的監管挑戰,將遠高於今天的大模型。
所以,世界模型潛力巨大,但帶來的風險也比我們過去面對的任何AI技術都更危險。它不只是內容層面的風險,而是會真的影響現實世界。
當AI不只是看世界、畫世界,而是開始在現實中推演、行動、做決定,我們需要從系統、對齊、倫理、監管所有層面重新討論這件事。
八、AI的下一段旅程
過去一、兩年,我們看到了AI在語言、圖像、視頻上的極速爆發,彷彿一夜之間,AI已經無所不能。但當你開始思考,AI是否真的理解世界,是否能預測未來,是否能像人類一樣在世界中行動?你會發現,現在的大模型其實還仍然停留在「表層智能」的階段。而世界模型,向我們提供了真正走向「深層智能」的可能。
它讓AI從「看到世界」走向「理解世界」,從「預測句子」走向「預測未來」,從「生成畫面」走向「在世界裏行動」。這不僅會改變機器人、製造業、自動駕駛、內容產業,也會改變我們和數字世界的關係,甚至改變我們對「智能」本身的理解。
當然,世界模型的道路還很長。它面臨巨大的技術挑戰,也伴隨新的風險。目前我們仍然不知道哪一條路線會最終勝出,但我們知道的是:當AI能夠真正理解世界、模擬世界、在世界裏試錯和行動時,它離「通用智能」,也就是我們一直在尋找的那個終極目標,又會近了一大步。而這,也許AI時代真正的拐點,而我們現在,正在見證它的開端。
最後,我們還想補充的是,因為世界模型本身還沒有一個被學界和產業完全統一的定義。所以這一期內容,並不是想給世界模型下一個「標準答案」,而是希望從我們的視角,為大家梳理出一個理解世界模型的框架。
不同團隊、不同方向的每一條路線背後,其實都牽涉到大量具體的技術細節、方法選擇,以及仍在快速演化的新嘗試。
本文來自微信公衆號:硅谷101,作者:張珺玥
本內容由作者授權發布,觀點僅代表作者本人,不代表虎嗅立場。如對本稿件有異議或投訴,請聯繫 tougao@huxiu.com。
End
想漲知識 關注虎嗅視頻號!