從“內部世界”到虛擬造物:世界模型的前世今生

市場資訊
08/21

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

(來源:經濟觀察報)

文/陳永偉

8月5日,谷歌DeepMind發佈了其新模型——Genie 3。

該模型能夠根據用戶的文本或圖像提示,實時生成可供用戶與AI智能體(AI Agent)互動的3D虛擬環境。例如,用戶只需輸入“月球上的火山邊”,Genie 3便能即時生成一片浮動的火山、黃色的大地與遠處的宇宙背景,並允許用戶進入探索。

相比此前的AI模型,Genie 3展現出更強的實時交互能力,並在互動時長和記憶連貫性上表現尤爲出色。例如,如果用戶在生成的房間牆壁上塗鴉,然後轉身探索別處,那麼當他稍後返回時,牆上的塗鴉依舊保留。

不僅如此,Genie 3還引入了“可提示的世界事件”(Promptable World Events)功能。這允許用戶在交互過程中,通過新的文本指令動態改變世界。無論用戶要求“加入一隻奔跑的小狗”“把天氣從晴天變成大雨”,還是“將環境從海邊變成山上”,Ge-nie 3都能瞬間響應。

Genie 3的出色表現不僅刷新了AI生成世界的邊界,也讓人們看到了另一條通向通用人工智能(AGI)的路徑——“世界模型”(World Model)的希望。一時間,關於“世界模型”的討論頻頻見諸媒體。

那麼,什麼是“世界模型”?它如何實現?又能爲我們帶來什麼?且讓我們一一道來。

世界模型簡史

在人工智能領域,許多重要的模型都是模仿人類的某種能力或大腦的某種機能建立的。例如,卷積神經網絡(CNN)的靈感來自生物視覺皮層感受域(receptive field)的工作方式,Transformer模型則借鑑了人類注意力的聚焦機制。同樣,世界模型的靈感源自對人腦一種重要機制的模仿——在大腦中構建並運用“內部世界”(inner world)的能力。

設想一下,你正走在大街上,突然看見一輛汽車急速駛來。這時,你會迅速在腦中進行計算,模擬它在接下來幾秒的運行方向和速度,並判斷是否需要避讓以及向哪個方向避讓。隨後,你的身體會根據大腦的判斷採取行動。需要注意的是,此時你腦中的工作機制與傳統機器學習有顯著不同——機器學習的判斷依賴於對大量數據的學習,這意味着只有在多次遭遇汽車迎面駛來並積累了統計經驗後,纔可能得出預測。然而,現實中這種突發情境極爲罕見,人類幾乎不可能僅靠經驗學習來應對。事實上,面對突然駛來的汽車,人們依靠的往往不是經驗,而是一種預測能力。換言之,你會在腦中提前“看到”那輛車未來的位置。這種“在心中演練未來”的能力,是人類智能最基本、也最奇妙的組成部分。

很早以前,就有人注意到人類構建“內部世界”的能力。18世紀,德國古典哲學家康德指出,人類的感知從來不是對現實的直接複製,而是在心靈內部通過某種“先驗框架”加以組織和解釋的。從這個意義上講,我們所見的世界,其實是自己建構的一個版本。20世紀,心理學家皮亞傑進一步指出,兒童並非被動接收信息來理解世界,而是通過不斷嘗試、失敗與重建,在腦中建立起一套關於世界運行規則的“心理模型”。這些模型使他們能夠預判事件的後果並指導決策。正因如此,人類才能成長爲擁有計劃與想象力的存在。

隨着現代認知科學興起,“人類可以不依賴真實世界輸入而進行‘心智模擬’(Mental Simulation)”這一事實得到進一步證實。研究還發現,人腦會不斷用感官輸入來驗證和修正自己的預測,使構建的“內部世界”愈加接近真實世界,並用更新的模型持續模擬現實、指導行動。

人工智能學科創立之初,專家們便開始嘗試模仿人腦的這種能力。例如,維納等人的反饋控制理論強調,智能體要與環境交互,必須對環境狀態有內部表示。同一時期,“符號主義”學者嘗試用邏輯規則和知識圖譜構建“世界描述”,並通過推理機進行決策,在棋類、路徑規劃等領域取得不少進展。20世紀70年代的Shakey機器人,就已能在“內部地圖”上模擬移動與避障。

進入20世紀80年代,隨着統計學習方法的發展,研究者開始用概率模型刻畫環境動態,並將隱馬爾可夫模型(HMM)、卡爾曼濾波等先進統計方法應用於內部世界構建。這類模型的優勢在於能夠從數據中估計轉移概率,減少對人工規則的依賴,但缺點同樣明顯——一旦狀態空間維度上升,模型規模與計算量便呈爆炸式增長,難以適用於圖像、視頻等高維感知輸入。

1989年,理查德·薩頓將強化學習與“內部世界”思想結合,提出Dyna架構。利用該架構,智能體既可以直接從環境中學習策略,也可利用學到的環境模型在內部進行計劃(plan-ning)。顯然,這一思路正是對人腦“心智模擬”功能的模仿。

1990年,時任博士生的人工智能專家于爾根·施密德胡伯(JürgenSchmidhuber)提出,理想的AI模型應像人類一樣,對真實世界有全面而準確的認知,並能模擬可能發生的情況。這樣的模型不僅要理解“現在”,還要想象“未來”;不僅要描述“是什麼”,還要推測“會變成什麼”。它不是傳統的分類器或生成器,而是一種具備“時間意識”的智能體。施密德胡伯將這種理想模型命名爲“世界模型”,並在博士論文中用循環神經網絡(RNN)構建了一個簡單版本,“世界模型”一詞由此誕生。

遺憾的是,當時神經網絡並非人工智能的主流方向,加之技術條件限制,該模型表現並不突出,“世界模型”這一名詞在此後多年傳播有限。直到2018年,施密德胡伯及其合作者發表題爲《世界模型》(WorldModels)的論文,這一概念才被更多人熟知。

這篇論文之所以在多年後引發關注,原因多方面:其一,“深度學習革命”已經發生,基於神經網絡的模型更易獲得認可;其二,論文中的世界模型在性能上顯著優於20世紀90年代的版本。但或許更重要的,是文中那幅漫畫:一個人正在騎車,而他腦海中也浮現着一個騎車的人。雖無一字,卻生動呈現了“世界模型”的核心——人在行動的同時,“內部世界”正模擬行動的可能結果,並據此指導行爲。所謂“一圖勝千言”,在人工智能領域同樣適用。

隨着“世界模型”思想被接受,衆多研究團隊投入到相關模型的開發之中。其中,谷歌DeepMind團隊無疑最引人注目。早在2019年,他們推出了基於模型的智能體PlaNet,能夠直接從圖像學習內容,構建世界模型,並預測後續圖像走向。測試顯示,它只需觀察前5幀,就能在給定動作序列的條件下提前準確預測接下來50步的發展。

2020年,DeepMind在PlaNet的基礎上推出改進版Dreamer模型,引入遞歸狀態空間模型(RSSM)等新技術,使其在預測與模擬性能上有顯著提升。進入“生成式AI革命”階段,尤其是在OpenAI發佈Sora之後,DeepMind開始將世界模型思路應用於高質量視頻生成,而Genie正是這一工作的產物。與Sora相比,Genie系列在視頻精細度與流暢性上略有不足,但因其基於世界模型構建,交互性遠優於Sora。這一特點,使其應用潛力大大超出視頻生成範疇。

世界模型的技術實現

從本質上講,所謂世界模型,其實就是AI的“理解引擎”。它的核心原理,用一句通俗的話概括,就是讓機器先在“心裏”排練一遍,再付諸行動。那麼,如何實現世界模型呢?雖然技術細節十分複雜,但總體上可以分爲幾個主要環節。

首先是表徵學習(RepresentationLearning)。在模擬現實階段,世界模型並不需要額外的數據輸入,但在構建階段,相關數據是必不可少的。這就好比我們在大腦中想象世界之前,必須先對世界的基本結構有所瞭解——而要做到這一點,就必須先用眼睛看、用耳朵聽,再將這些信息轉化爲大腦可處理的電信號。同樣地,在構建世界模型時,AI需要通過傳感器從外界獲取各種數據輸入,這些輸入可以是文本、圖像,也可能是聲音或視頻。接着,AI通過“表徵學習”過程,將這些輸入壓縮成機器能夠理解的“內部語言”。在不同應用需求下,“表徵學習”會使用不同技術。例如,在學習連續潛在空間時常用變分自編碼器(VAE);在從未標註數據中提取有意義的視覺特徵時,則會用到自監督視覺模型。

接下來是動態建模(DynamicModelling),這一階段要回答的問題是:“如果我現在採取某個動作,比如前進一步,世界的狀態會發生什麼變化?”AI需要基於已有數據和先驗知識,不斷對可能的未來場景進行模擬。難點在於準確刻畫現實世界中的物理規律。衆所周知,傳統機器學習多半學到的是相關性,而非因果關係,這在模擬中容易出錯。例如,按照萬有引力定律,物體被拋出後會在重力作用下下落。但如果AI的訓練數據只包含拋擲羽毛的情景,它可能會錯誤地“學習”到物體不會下落,而是漂浮空中,從而在模擬中產生荒謬的結果。解決方法之一,是在模型結構中直接嵌入物理規律,例如依據萬有引力定律和空氣阻力公式設計損失函數,將其作爲訓練約束。另一種方法是從數據入手,確保訓練樣本涵蓋多樣化場景——既包括拋擲羽毛,也包括拋擲鉛球。AI在多樣化的樣本中便可歸納出更普適的規律,實現更準確的建模。只有當AI“學會”並內化了物理定律,構建出的模型才具有真正價值。

第三個環節是控制與規劃(ControlandPlanning)。在這一階段,AI基於世界模型對現實進行模擬,並在衆多可能方案中尋找最優策略。以躲避汽車爲例,這一步就是在成千上萬種閃避方式中找到最優解。不同場景下,控制與規劃的方法各不相同。例如,在早期模型中,蒙特卡洛樹搜索常被用於尋找最優策略;而在PlaNet、Dreamer等知名世界模型中,則通過基於模型的強化學習(Model-basedRL)在潛變量空間中進行多步規劃。有些模型還會在策略優化的同時,反向優化“內部世界”本身,實現模型與策略的雙向提升。

最後是結果輸出。顧名思義,這一環節的任務是將模型“想象”的結果以可見、可聽或可感的形式呈現出來。對於許多世界模型(如本文開頭提到的Genie)而言,這一步至關重要。最常見的輸出形式是視頻或圖像序列。實現這一目標,需要將“表徵學習”過程反向執行——將AI內部的表徵還原爲像素。早期常用基於像素的生成模型,如卷積神經網絡(CNN)解碼器或自迴歸模型。較新的方法多采用基於潛在空間的渲染:先在低維潛在空間生成內容,再解碼爲像素,其效率遠高於直接像素生成。如果目標不僅是“看得見”,還包括“聽得到”甚至“可觸摸”,則需引入更多模態的生成與渲染技術,這裏不再展開。

世界模型能做什麼

世界模型的出現,究竟能爲我們帶來什麼?如果說過去的AI擅長的是“計算”“識別”或“對話”,那麼世界模型則爲AI打開了一扇新大門——它不僅能夠“看懂世界”,還能夠主動“在世界中行動”。這種能力,使它可以被應用於多個不同場景。

首先,是與“具身智能”相關的領域。這裏所說的“具身智能”範圍更廣,既包括擁有真實機械結構的機器人,也包括虛擬遊戲角色等任何具備“身體”的智能體。一旦智能體有了身體,它就可以主動移動、操作和試探。理論上,我們可以讓它通過這些行動不斷學習,像嬰兒通過抓、摔、跳、爬來探索世界規律一樣。然而在現實中,這種探索往往成本高昂,甚至存在破壞性風險,因此在實踐中並不可行。比如,雖然理論上可以讓機器人通過試錯學習躲避汽車,但在真實環境中,只要出現一次錯誤,就可能導致嚴重損壞,學習自然無法繼續。

在這種情況下,世界模型爲智能體提供了一個安全的訓練場。AI可以在其中反覆嘗試各種策略,直到找到最佳路徑,再回到現實世界時,它已經是“經驗豐富”的行動者。顯然,這種訓練方式相比傳統方法不僅能顯著降低成本,還能避免大量不必要的事故。施密德胡伯曾將這種在世界模型中進行訓練的方式形象地稱爲“做夢”(dreaming),這個比喻恰當地刻畫了它的特點。

其次,是“數字孿生”領域。數字孿生是指爲現實世界中的實體(如工廠、城市、港口)等創建高度還原的數字副本,以此實時同步數據、預測變化。過去,即便數字孿生做得再逼真,它也只是一個被動的模型。而有了世界模型的介入,這個孿生體就能主動模擬未來、預測問題並實時響應。它不僅可以預警設備故障、識別倉儲流程可能的擁堵,還能提前給出優化建議。將世界模型應用於數字孿生,不僅能顯著提升自動化水平,還能實現“感知—預測—決策”的一體化躍遷。

第三,是教育與科研領域。科學家可以利用世界模型構建虛擬物理實驗室,更精確地預測液體流動、粒子運動或電路反應;教育者則可以打造交互式虛擬課堂,讓學生在模擬環境中親手實驗、探索知識。隨着世界模型的加入,知識生產與傳播的效率都將得到顯著提升,整個知識產業鏈有望實現優化升級。

第四,是遊戲和娛樂領域。在這裏,世界模型就像一臺自動生成可玩世界的引擎。玩家不再受限於預設場景,而是可以根據自己的行爲、興趣和指令,讓AI實時生成全新世界。同時,虛擬世界中的NPC將具備更高的智能水平,與玩家進行更豐富、自然的互動,從而大幅提升遊戲的沉浸感與可玩性。

如果我們把視野放得更遠,世界模型甚至可能成爲“虛擬社會”的基礎設施。一個高度發達的世界模型,或許能夠支撐數十億人同時生活、交流和建造的數字世界。在那裏,每一個人的動作與決策,都會被模型合理接收、反饋並推動演化。那時,世界模型帶來的將不僅僅是遊戲或模擬,而是一種全新的存在方式。

世界模型背後的隱憂

科技的每一次突破,都是一把雙刃劍,世界模型也不例外。當它讓AI不再只是識別現實,而是能夠“創造”現實時,隨之而來的倫理與治理問題正逐漸浮出水面。

第一,世界模型可能進一步模糊真實與虛擬的邊界,引發“後真相”危機。它生成的內容不僅符合物理規律,還能與用戶深度交互,帶來的“真實感”遠超當前的AI生成物。在這種情況下,“有圖有真相”甚至“有視頻有真相”的時代將一去不返。一旦被用於詐騙、造謠或政治操縱,其社會危害將極爲嚴重。

第二,世界模型可能成爲行爲操控的工具。它不僅能建構環境,還可以通過環境反向影響用戶行爲。由於虛擬世界足夠逼真,構建者完全可以藉助物理佈局、獎勵機制、劇情走向等方式,潛移默化地引導用戶做出特定選擇。在這種情況下,人們在AI世界中的“自由選擇”可能並不真正自由。如何抵禦商業誘導、政治宣傳和極端意識形態的滲透,在虛擬幻象中守住自我,將成爲一大挑戰。

第三,世界模型可能加劇人們對虛擬世界的沉迷與對現實的疏離。它能夠構建一個巨大的“智能烏托邦”——既與真實世界一樣真實可交互,又比現實更美好、更有回報感。在那裏,人們可以輕易獲得完美的社交關係、理想的職業和永恆的勝利感。然而,當沉浸其中的快感不斷累積,人們面對現實的意願和能力可能逐漸削弱,甚至喪失在現實世界生存的必要技能,最終被困於虛擬世界。

第四,世界模型可能放大偏見、歧視與社會固化。爲了構建逼真的虛擬世界,它會大量參考現實世界的數據,從而吸收並重現其中根深蒂固的偏見。在AI的放大效應下,這些偏見不僅會被複制,還可能通過互動灌輸給用戶,使錯誤觀念在潛移默化中得以強化。

第五,世界模型的責任歸屬與治理缺口亟待關注。當模型變得足夠複雜時,其生成的內容與交互效果往往超出單一開發者的直接控制。這帶來一個棘手問題:一旦虛擬世界出現傷害性後果,責任應由誰承擔?例如,用戶在虛擬世界中受到心理傷害,或被誘導做出危險行爲,責任在模型構建者、平臺運營方,還是用戶自身?又如,當AI在虛擬訓練中學會不良策略並在現實中重現,應追責於模型設計者、應用方,還是數據提供者?這些問題目前尚無明確答案,但隨着世界模型的普及,遲早必須直面。

綜上,世界模型雖具有巨大的應用潛力,但其伴生風險同樣不容忽視。唯有提前建立倫理、法律與技術的多重防護,才能確保這項技術真正造福人類。

世界模型是通往AGI的必由之路嗎

世界模型之所以在近期引發高度關注,除了其潛在應用廣泛外,還有一個重要原因:不少人工智能專家認爲,它纔是通向“通用人工智能”(AGI)的正確道路。Meta首席AI科學家、2018年圖靈獎得主楊立坤(YannLeCun)多次公開表示,世界模型不僅重要,而且幾乎不可或缺。他指出,當今的大語言模型(LLM)雖能在語言空間中生成連貫文本,但從本質上看,它們缺乏對現實世界的連續表徵和物理一致性推理能力。人類之所以能在複雜環境中高效學習與適應,關鍵在於能在大腦中構建對真實世界的模擬,並在內部模型中進行“離線思考”。這種能力不僅顯著降低了試錯成本,還能幫助我們更好地應對未知情境,實現知識的跨領域遷移。從目前來看,只有世界模型能夠模擬人類的這一能力。因此,如果希望AI的能力接近甚至超越人類,世界模型或許是必經之路。

楊立坤的觀點在AI界收穫了不少支持,但也遭到同樣多的質疑。一部分強調“端到端學習”和“規模驅動”的研究者,對這一觀點持謹慎甚至懷疑態度。在他們看來,儘管世界模型有其價值,但AGI未必需要顯式的世界模型,更談不上是“必由之路”。例如,Deep-Mind創始人、2024年諾貝爾化學獎得主德米斯·哈薩比斯(DemisHassabis)就指出,大規模無模型(Model-free)方法在一些複雜任務中已取得令人矚目的成績——AlphaGoZero、AlphaStar等系統並沒有顯式的物理世界建模,卻在多個領域表現超越人類。因此,通過類似方法模仿、逼近甚至超越人類能力,實現AGI並非不可能。

與此同時,還有學者質疑世界模型本身的發展潛力。他們認爲,首先,顯式的物理世界建模容易受到建模誤差的限制,多步預測中的累積偏差可能嚴重影響規劃質量,從而削弱模型性能,甚至不如普通神經網絡。其次,如果目標環境過於複雜,在潛在空間中構建準確、穩定的世界模型所需成本將極爲高昂,此時直接依賴強大的策略網絡擬合最優行爲,反而可能更具性價比。

除“世界模型派”和“反世界模型派”外,還有學者主張中間路線。他們認爲,AGI未必依賴單一、統一的世界模型,而可以通過“隱式建模”獲得類似能力。許多現代大語言模型和多模態模型在訓練過程中,實際上已經學會了某種世界知識的結構化表示——這種表示並非工程師顯式構建的物理引擎,而是以海量數據訓練結果隱含在參數空間中。這種“參數即世界”的方式雖然可解釋性較差,但在推理、預測、規劃等任務中依然能展現出一定的世界理解。例如,GPT類模型可以通過多輪對話推演事件邏輯,甚至在虛擬物理場景中給出連貫結果。換言之,即使在模型設計時未預先植入物理規律,它們依然可能通過學習自行抽取這些規律。因此,中間路線派認爲,顯式物理建模並非實現世界模型的唯一途徑。

那麼,哪一種觀點更有道理?這在很大程度上取決於我們如何定義AGI,以及如何理解“必由之路”。在AI圈內,對於AI的目標本就存在分歧:有學者認爲,AI的目標是讓機器像人一樣思考和行動;也有人認爲,目標是讓機器像人類一樣完成任務,而不必在機制上與人類相同。基於不同的理解,AGI的定義也有所不同:如果目標是讓機器像人類一樣行動,那麼模擬人類構建“內部世界”的能力就必不可少;如果目標只是讓機器在任務表現上不遜於人類,那麼是否使用世界模型就不是必須。相比一刀切地依賴世界模型,根據任務性質選擇最適合的技術路徑,或許纔是更爲務實的通向AGI之路。

結語

幾千年來,人類一直在追問一個問題:世界是如何運作的?從古代神話中的創世之神,到近代物理學的牛頓與愛因斯坦;從文學中的烏托邦,到哲學中的“物自體”與“現象界”,我們始終渴望理解世界的規律、命運與可能性。而今天,當人工智能開始嘗試“創造”一個世界,它實際上也在加入這場古老的對話。

世界模型不僅是一種AI工具,更是一次對“認知本身”的挑戰。它不僅試圖再現世界的外觀,更力圖理解其機制、因果的流動,以及行動與反饋之間的微妙關係。從這個意義上看,無論它最終能否引領我們走向AGI,也無論它能帶來多少直接應用,其探索價值都不可低估。

免責聲明:本文觀點僅代表作者本人,供參考、交流,不構成任何建議。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10