Google,掌握人類進入高質量數字世界入口的搜索引擎,是數字世界的王者。
但是到了2022年人工智能爆發時代,Open AI 推出ChatGPT征服人類世界的巴別塔語言、Midjourney和Stable Diffusion分別推出圖片生成模型,到了2024年Open AI繼續推出Sora視頻生成模型。
而在自動駕駛領域,2009就開始自動駕駛項目的Google Waymo在2025年受到特斯拉強烈的挑戰,特斯拉號稱可以迅速泛化拓展而且成本極低。
那麼Google在人工智能AI時代是沒落了麼?
最近一款叫做Nona-banana的圖片生成軟件火出圈了,各個玩家愛好競相轉載使用Nona-banana生成的圖片,絕對是可以以假亂真,讓你驚歎到世界還有什麼是真實的。而這款圖片生成大模型,就來自於Google。
而在文字領域裏面,國內文化的朋友估計沉寂在Deepseek、豆包、Kimi樂此不疲,也有玩ChatGPT、Claude、Perplexity的極大的增效文案工作。
但是Google的Gemini 和NotebookLM各種大神們一用一個不吭聲,太好用了。
在視頻生成領域,有很多類似的案例模型,好吧我鋪墊不下去了,直接進入今天的正文 Google的視頻生成模型 Genie 3。他是DeepMind 最近推出更新的一個視頻生成模型,這是一款真正稱得上世界模型的大模型。
雖然我們熟悉的自動駕駛領域最近也有不少公司表示自己採用世界模型做輔助駕駛或者自動駕駛。
但說實話國內的更多的是概念和營銷,至於這個“世界模型”概念瓶子裏面裝的是啥,誰也不知道,反正大家也不懂,各家喊這個詞無非就是想佔領關鍵詞和用戶心智。
而Google的 Genie 3 可能真的能夠打開自動駕駛或者輔助駕駛的世界模型大門。
Genie 3是什麼?什麼是世界模型?
Genie 3 是一個能夠根據文本或圖像生成交互式環境的世界模型。您可以以720p 和每秒 24 幀的速度實時瀏覽這些場景。世界在幾分鐘內保持視覺一致,並且您可以通過新的提示隨時更改它。想象一下您可以進入並控制的視頻生成。
我們先來回顧下,什麼是世界模型,之前文章《世界模型 World Model 101》也分享過。
世界模型是一種人工智能系統,它學習 世界的行爲方式,並對其進行未來設想。它不僅能預測下一個單詞或下一個視頻幀,還能預測當你採取行動時整個環境應該如何演變。這使得智能體能夠在對其做出反應的模擬環境中練習技能。這是邁向具身智能的一步,也是邁向更通用人工智能的關鍵要素。
世界模型概念很大,能裝下各種概念,但當前國內的世界模型應該都是僞命題,或着極度誇大的概念。
Genie 3 如何將提示轉變爲可玩的世界?
這個過程感覺很神奇,但簡單來說它的工作原理如下。
1. 類似於GPT類型模型,通過Prompt給 Genie 一個提示
你輸入的世界描述,可以是一句話、一個手稿,甚至是一張照片。這個提示是種子,是AI想象力的起點。它爲Genie 3提供了你想要創造的世界的核心概念。
2. 人工智能解讀你的想法
在這個階段,Genie 3 會利用其訓練數據(包括大量視頻和圖像數據)來猜測你的世界應該是什麼樣子。當你描述“上海城市”時,它知道應該包含時尚的建築、外灘、人羣。當你描述“行走的汽車”時,它知道汽車行駛的動態模型,光線是如何反射的,以及汽車與周圍環境如何相互作用的。這就是它的世界模型,它理解物理世界以及存在的物理法則。
3. 快速構建 3D 環境
Genie 3 利用這種內部理解,開始實時創建世界。不過,它不像傳統遊戲引擎那樣創建完整的 3D 文件。相反,每次你移動或與世界互動時,它都會生成一個新的世界幀。這個過程非常快,以 720p 分辨率每秒渲染 24 幀,讓你感覺就像在玩遊戲一樣,沒有任何延遲或卡頓。
4. 世界回應你
這就是 Genie 的與衆不同之處。當你行走時,AI 會從你的視角預測下一個場景應該是什麼樣子。
你按下“前進”鍵。模型生成下一幀,顯示你的角色向前移動,建築物越來越近,城鎮廣場上的人們繼續他們的行動。你撞到一堵牆。模型從訓練數據中得知你無法穿過牆壁,因此它會停止你的移動並顯示你撞到了牆。這並不是因爲它有“撞牆”規則,而是因爲它從之前的真實視頻中學習到了這一點。
Genie 3最終呈現的是持久且可玩的現實
Genie 3 的最終輸出與傳統的生成視頻截然不同。你不再只是觀看,而是置身其中。實時互動。
您的指令處理完畢後,您便可掌控一個栩栩如生、栩栩如生的世界。
Genie 3 以實時響應的模擬方式運行,以 720p 分辨率和每秒 24 幀的速度實時渲染每一幀新內容。這種低延遲體驗讓您身臨其境。您可以行走、跳躍並與物體互動,世界會自然地做出反應,提供堪比現代電子遊戲的響應速度。記憶的力量Genie 3 最卓越的成就之一是其視覺記憶。在早期的生成模型中,世界經常會“忘記”它在前一幀中創造的內容。如果你移動一個物體並轉身離開,它可能會消失或重新出現在錯誤的位置。
然而,Genie 3 能夠保持環境一致性約一分鐘。如果你掉下一個球並繞過一個角落,當你回來時它仍然在那裏。這種保持物體永久性和一致性的能力是一項意義深遠的技術成就,它使模擬環境可信且穩定。
Genie 3 可提示改變的世界事件
Genie 3 的實時交互功能允許對世界本身進行即時修改。這項名爲“可提示的世界事件”的功能,已被證明能夠徹底改變創造力和敘事方式。在模擬環境中,你可以輸入新的提示,例如“下雨”或“添加一頭巨大的飛鯨”,AI 會立即整合這些新元素,無需重新開始。
Genie 3 背後的技術創新
要在 Genie 3 中實現高度的可控性和實時交互性,需要重大的技術突破。在每一幀的自迴歸生成過程中,模型必須考慮先前生成的隨時間增長的軌跡。例如,如果用戶在一分鐘後再次訪問某個位置,模型必須參考一分鐘前的相關信息。爲了實現實時交互性,這種計算必須每秒進行多次,以響應新的用戶輸入。
爲了使AI生成的世界具有沉浸感,它們必須在很長一段時間內保持物理一致性。然而,自迴歸生成環境通常比生成完整視頻更難,因爲誤差往往會隨着時間的推移而累積。儘管挑戰重重,Genie 3的環境在幾分鐘內仍能保持基本一致,視覺記憶甚至可以追溯到一分鐘前。
Genie 3 的一致性是一項新興能力。其他方法,例如 NeRF 和高斯分佈,我們在自動駕駛仿真中常見的底層技術,他們也能實現一致的可導航 3D 環境,但是他們依賴現有數據的採集然後進行恢復或者修改。相比之下,Genie 3 生成的世界更加動態和豐富,因爲它們是根據世界描述和用戶操作逐幀創建的,而不是修改的。
這裏就可以理解基於NeRF和3D高斯的仿真世界模型,可能不是真正的世界模型,他們可能是靠數據積累或者記錄所有真實世界的數據然後壓縮了而已。
至於Genie 3採用的是什麼技術,目前 Genie 3的論文沒有發佈。但是根據Genie 2論文的介紹,Genie 3技術底層還是基於Transformer。
視覺人工智能,不管現在大火的VLA 都採用一種叫做Vision Transformer (ViT)的技術。

Genie 3採用了基於ViT創新的內存高效的 ST-transformer 架構,空間-時間Transformer網絡,可以分爲兩個部分:
Spatial-Transformer 它通過自注意力機制,能夠捕捉實時車速、傳感器連接性、距離以及車流方向等多種因素決定的、不斷變化的空間模式。通過多頭注意力機制,還能同時考慮相似性、連通性和協方差等多種依賴模式。
長程時間Transformer:能有效捕捉跨多個時間步的長程雙向時間依賴關係。與傳統一步步預測不同,時間Transformer可以同時進行多步預測,直接從“無誤差”的歷史數據中預測未來多個時間點,從而有效抑制預測誤差的傳播和累積,並支持並行訓練和預測,提高了效率和可擴展性。
也就是實現了時空的雙向捕捉和編碼。
此外還有雙向Transformer解碼器:MaskGIT採用了一種新穎的圖像合成範式,利用雙向Transformer解碼器,改進圖像生成領域中Transformer模型的效率和質量。
Genie 的“交互式環境”本質上就是一個視頻遊戲:你可以感知它,也可以對它採取行動。這是對 ChatGPT、Claude、Gemini、Grok 甚至圖像/視頻模型(Imagen 4或Veo 3 )等 LLM 的質的升級。
Genie 3 有望對人工智能領域產生巨大影響。
這是邁向通用人工智能 (AGI) 的一步。包括谷歌 DeepMind 在內的許多專家都將 Genie 3 這樣的“世界模型”視爲邁向通用人工智能 (AGI) 的關鍵里程碑。
通過從未標記的視頻數據中學習世界的基本規則,Genie 3 展現出比以往 AI 模型更深入、更直觀的理解現實運作方式。這種模擬物理屬性和因果關係的能力被認爲是構建能夠在現實世界中推理和行動的真正智能 AI 代理的必要條件。
對於自動駕駛和機器人研究來說,Genie 3 提供了一個無限的“沙盒”。訓練機器人和自主系統應對所有可能場景非常困難、昂貴,而且往往很危險。Genie 3 輕鬆解決了這個問題,它允許研究人員即時生成動態世界,讓多個獨立智能體可以通過反覆試驗進行學習。這可能會加速機器人技術和自動駕駛汽車的進步。
然後,如果對這個世界模型進行微調打通汽車的執行器電機,剎車,轉向的控制。蒸餾到車端進行控車,那麼世界模型應用到自動駕駛就真正成功。
Genie 3 不僅僅侷限於人工智能研究,它還可能徹底改變遊戲、教育和娛樂行業。它使創作者能夠通過簡單的文本提示生成可玩的交互式世界。遊戲設計師可以快速製作創意原型,教育工作者可以構建沉浸式互動課程,而故事講述者可以創作讓用戶身臨其境的生動故事。
最重要的是,與前代產品相比,Gennie 3 的重要性在於它克服了諸多限制。它能夠生成 720p、24 fps 的交互式體驗,並保持長達一分鐘的視覺記憶,這無疑是一項巨大的技術成就。該模型爲 genAI 模型的功能樹立了新的標準,並凸顯了 AI 創作內容從被動消費到主動參與的轉變。
Genie 3 能做什麼應用?
這項技術將在多個領域開闢了無限的可能性:
快速遊戲開發:遊戲設計師可以勾勒出想法並立即看到它們變成現實,無需花費數月時間進行開發即可測試遊戲玩法。
人工智能訓練和機器人技術:機器人、自動駕駛和人工智能代理可以學習導航 Genie 3 生成的複雜世界,從而使它們在現實世界中變得更加智能。
教育與創造力:教師、學生和講故事的人可以創建互動課程或故事,使學習變得有趣且身臨其境。
虛擬和增強現實:Genie 3 可以提供新的 VR 體驗,任何人都可以即時構建和探索世界。
也就是說技術在這裏,就等着產品經理們挖掘場景落地應用了。
Genie 3 目前的缺陷?
雖然 Genie 3 突破了世界模型所能實現的界限,但Google團隊也在介紹Genie提出必須承認其目前的侷限性:
行動空間有限。儘管可觸發的世界事件允許進行廣泛的環境干預,但它們不一定由代理本身執行。代理可直接執行的行動範圍目前受到限制。
與其他代理的交互和模擬。準確建模共享環境中多個獨立代理之間的複雜交互仍然是一個持續的研究挑戰。
準確表示真實世界的位置。Genie 3 目前無法以完美的地理精度模擬真實世界的位置。
文本渲染。通常只有在輸入世界描述中提供時纔會生成清晰易讀的文本。
交互時長有限。該模型目前支持幾分鐘的持續交互,但無法支持長達數小時的交互。
寫在最後
目前,Genie 3並未推出給大家用,Google 的DeepMind表示,將向有限數量的測試人員提供 Genie 3 作爲研究預覽版。所以,大家只能說盡請期待,但這個Genie 3或着他背後的技術可能真正構建一個世界模型。
而有了一個真正的世界模型,世界或許會有另外一個景象。
相信此刻,先進和嗅覺敏銳的輔助駕駛、自動駕駛公司都在研究Genie 3。
參考文章以及圖片
*未經准許嚴禁轉載和摘錄-
原文標題 : 谷歌Genie 3 - 打開“世界模型”通往自動駕駛的大門