炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
(來源:新智元)

新智元報道
編輯:Aeneas
【新智元導讀】谷歌DeepMind的Genie 3是如何誕生的?這位主持人深入探訪實驗室內部,全球獨家首測了Genie 3,扒出超多震撼細節。同時,前谷歌研究員的筆記中,也曝光了使用初體驗,他直言:炸裂,Genie 3讓我看到了遊戲未來五年的盡頭!
昨晚,「第三次世界大戰」徹底打響了。
GPT-5發布前夕,三大模型廠商齊上陣,2025年8月5日應該是會被載入AI發展史冊的一天。
戰火硝煙之際,谷歌DeepMind祭出的世界模型Genie 3,可謂一枚重磅炸彈,代表着世界模型的全新前沿。
可以說,從靜態視頻到交互式世界的飛躍,它標誌着世界模型和AGI發展的轉折點。
要知道,一年前的Genie 2還是這個樣子的,僅僅一年,Genie 3居然就進化成了右邊這個樣子……

要知道,Genie 2並不是實時的,還需要再等幾秒鐘;但Genie 3是完全實時的
並且,Genie能支持大約10秒的生成,Genie 2能支持20秒,而到了Genie 3,則可以模擬數分鐘的交互式環境。
可以說,Genie 3改變了一切。

而這位Youtuber提前去了谷歌DeepMind的倫敦總部,對Genie 3進行了全球獨家首測,放出的30分鐘視頻中,為我們揭露了更多炸裂細節。

谷歌前員工內測:它將永遠顛覆遊戲行業!
無需預先構建3D模型,僅通過文本描述,Genie 3可以在720p分辨率下生成數分鐘的一致性視頻。
而這個「可提示的世界事件」功能就更是炸裂,僅僅通過文本命令,就可以添加新物體、生成角色,為訓練AI智能體開闢了全新的可能性。

就在啱啱,前谷歌DeepMind員工Tejas Kulkarni也分享了自己的Genie 3使用初體驗。

以下為他的獨家實測demo。


他的評價就是四個字——「難以置信!」
總結來說,這是他嘗試過的第一個性能如此之好,並且具有長期世界一致性的神經遊戲引擎,或者說世界模型。
他相信,Genie 3的誕生,將徹底顛覆遊戲行業。可以說,它就是我們離實現完全AGI之前的最後一塊拼圖。
在很多方面,它更像ASI而不是AGI。因為保真度和泛化能力已經達到人類水平,並將迅速超越人類,它可以和3D人工智能及LLM結合起來,徹底顛覆3A遊戲。

根據這位前員工的說法,Genie 3的亮點可以總結如下。
真正的通用,啓動時間很快,可推廣到其他工業和現實世界場景。
會學習物理知識。在沒有底層引擎的情況下學習遊戲引擎和非剛體物理學。對於角色走動的風格化環境非常有效。
比視頻模型有趣得多。
逼真的漫遊,無人機拍攝效果極好。
全局照明和燈光效果很讚。
視覺記憶非常強大。

當然,它還存在一些未解決問題。
物理學很難。(嘗試積木塔中的經典直覺物理實驗時,它失敗了)
社交和多智能體交互很難,1v1戰鬥遊戲不起作用。
長時間的指令遵循和簡單的組合遊戲邏輯失敗(例如收集一些點/鑰匙等,走到門口,解鎖等等)。
動作空間有限。
遠非真正的遊戲引擎,但讓我們瞥見了未來。

而且,Kulkarni也着重cue到了Genie 3被官方提到的一大亮點——記憶功能

即使過了20-30秒,看到的某個東西依然會保持原樣
揭祕Genie 3誕生:全球獨家首測,實驗室細節超震撼
而Genie 3一發布,Youtuber「Machine Learning Street Talk」也緊接着放出了對幕後團隊的採訪視頻。
他們實地探測了實驗室的情況,揭祕了Genie 3的誕生過程。

在此過程中,主持人不斷驚呼:這是我見過最令人嘆為觀止的技術!
在谷歌DeepMind的倫敦總部,他試用完Genie 3後這樣說道:這項技術將成為下一個萬億美元的產業,甚至成為VR的殺手級用例。
這期節目的嘉賓,正是Genie 3的幕後功臣——谷歌DeepMind的兩位研究者Shlomi Fuchter和Jack Parker Holder。

有趣的是,跟之前的採訪不同,這次他們對Genie 3架構的技術關鍵細節諱莫如深。
主持人評論:可以理解,畢竟小扎正像松露獵犬一樣四處巡迴狩獵。但他建議小扎別這麼幹,因為這些研究者做的是「上帝一般的工作」,如果小扎真的很想要,就自己做一個吧。 (狗頭)

全球獨家首測
可以說,Genie 3令人印象深刻的一大記憶點,就是它的一致性。
它所創造的世界擁有可靠的記憶。如果我們將視線從某個物體上移開,然後再回頭看,它仍然會在那裏。
讓人出乎意料的是,兩位研究者解釋道,這種一致性並非明確編程的;它是強大的AI模型中突然出現的一種令人驚訝的「自發」能力。

而且,它代表着一個巨大的飛躍。之前的Genie 2已經算是一次重大的飛躍了,但它的速度不足以實現實時交互,而且分辨率也低得多。
這次不同的是,Genie 3 分辨率高達720p,具有交互性和照片級的逼真度,每次運行可以流暢運行幾分鐘。
而且,Genie 3代表着訓練機器人的殺手級應用。
團隊認為, Genie 3將徹底改變AI訓練的格局。與其在現實世界中訓練自動駕駛汽車或機器人(這既緩慢又危險),不如創建無限的模擬環境。
你甚至可以觸發一些罕見事件,例如一隻鹿跑過馬路,以此教會AI如何安全地應對突發情況。

Genie 3跟傳統的遊戲引擎或模擬器不同,也並不像生成視頻模型,但它的確具有這三者的特點。
本質上來說,它是一個交互式的世界模型和視頻生成器。
這是技術上邁進的一大步。要知道,在1996年的地震引擎中,它還需要對物理、規則和交互進行明確的編程。
然而Genie 3所代表的新一代AI,卻能直接從視頻數據中學習現實世界的動態。
而且,它還能讓我們實時控制世界中的智能體。
這種轉變,就徹底擺脫了手工編碼模擬器的侷限。要知道,前者最先進的平台XLAND,也只是像卡通一樣,跟現實世界相去甚遠。

但是現在,只需一個簡單的提示,就能生成想要訓練智能體的任何交互式世界了。

Genie的第一個版本,經過了30000小時2D平台遊戲記錄的訓練。

它的核心創新,就是一個時空視頻tokenizer,一個潛在動作模型,以及一個預測未來狀態的自迴歸動力學模型。


僅通過分析遊戲錄像中的幀間變化,Genie就能發現8個在不同環境中保持一致的離散動作,它可以無需接受針對這些動作的明確訓練,就知道什麼是跳躍,什麼是向左移動。
可以說,這是一個OMG時刻!

僅僅10個月後,Genie 2就問世了,而且具備了3D功能,視覺保真度達到了虛幻引擎的級別。

Holder向Hassabis介紹:這是團隊某人在加州拍的照片,而他們可以讓Genie將其轉化成一個交互式世界。

而今天的Genie 3一來,直接做到了720p的分辨率,達到了驚人的級別。

有趣的是,Shlomi對Veo 3瞭如指掌,此次他們也將Genie架構的元素和Veo做了結合。
因此,Genie 3的主要特點就是具有多樣化的環境、漫長的視野和可提示的世界事件。
比如在這個滑雪世界中,我們可以創造另一個滑雪者,或者一羣跑下雪坡的鹿。

這對模擬自動駕駛等罕見事件的建模,就顯得意義重大!
另外,谷歌DeepMind還認為:訓練機器人模擬可以作為真實玩家的主要用例。這樣,就能省下驚人的成本。
如果我們能像《黑鏡》一樣,在計算機中就能模擬任何可能的情況,為什麼還要在世界中模擬呢?

研究者使用模擬環境訓練智能體執行特定任務的例子
遺憾的是,Genie 3目前還有一個短板——它並不具備創造力。
現實世界與虛擬世界的最大不同,就是前者充滿着創造力,也就是說可能發生的事件之樹會不斷生長。
在未來,我們或許能有一個外循環,使系統更加開放。
最終,Genie 3代表着娛樂的未來——
它這可能會催生「YouTube 2.0」或一種全新的虛擬現實形式,讓用戶可以像哲學裏的體驗機一樣,共同創造和探索無盡的互聯世界。
雖然Genie 3目前仍處於研究原型階段,尚未向公衆開放,但它代表着我們朝着從零開始創造真正的人工世界邁出了重要的一步。
參考資料:
https://www.youtube.com/watch?v=ekgvWeHidJs
https://x.com/tejasdkulkarni/status/1952737669894574264?t=GxoL_FaKqWAeuAFUPYWOCg&s=19