在世界模型分岔口,李飛飛與谷歌新模型給出了不同答案

藍鯨財經
09/19

藍鯨新聞9月19日訊(記者 武靜靜)在生成式 AI 的敘事進入深水區後,業界的焦點逐漸從文本和圖像生成轉向“世界模型”。與傳統的內容生成不同,世界模型試圖讓 AI 對真實的物理環境有更完整的理解與預測能力,它不僅回答“看到的世界長什麼樣子”,還要回答“接下來世界中會發生什麼”。

生成式 AI 的下一輪競爭中,“世界模型”正在成爲各方押注的核心方向。最近,李飛飛教授團隊創立的公司 World Labs 發佈了全新產品 Marble,這是一款基於圖像到3D生成技術的升級版工具,強調在空間結構和幾何一致性上的突破。與此同時,此前,谷歌 DeepMind 發佈了其世界模型項目 Genie 3,側重交互和物理規律的推演。

圖:Marble生成的內容的一張截圖,右上角爲動態視頻中的小地圖

雖然,Marble與谷歌 DeepMind 發佈的 Genie 3 看上去都是世界模型,但是背後的技術路徑和認知則截然不同。

Marble與Genie 3,對世界模型不同技術路線的實踐

World Labs 成立於 2024 年 4 月,短短幾個月就吸引了硅谷頂級投資機構 a16z 和 Radical Ventures 的下注。資本的快速進入,本質上是對“空間智能”這一全新技術方向的認可。

Marble 目前處於測試階段,它的特點是可以通過一張圖片或一句文字,生成一個完整、可自由探索的三維虛擬世界。生成的環境不會隨時間消失或出現形變,整體保持高度的一致性和幾何連貫性。用戶進入後,可以像在遊戲裏一樣用鼠標自由遊覽。

有創作者用 Marble 搭建了一個可導航的舞臺,並在其中規劃鏡頭和場景,就像拍攝電影一樣。而 World Labs 方面則強調,Marble 不僅能生成規模更大、風格更豐富的環境,還能提供更清晰的三維幾何細節。它更適合構建舞臺、房間或廣闊的自然景觀,而不是單一的物體或角色。

在 Marble 的官網上,已經有人用它創造出奇幻的房屋、海底世界和森林地圖,看起來頗有“頭號玩家”式的沉浸感。創作者們還能對場景進行縮放、拼接和多代迭代,從而得到更復雜、更持久的世界。無論是動漫風、卡通風,還是照片級的真實畫面,它都能支持,這讓電影人、遊戲開發者和數字藝術家都可能成爲它的用戶。

資深的AI應用用戶Jason 在親自體驗了一個月 Marble AI 後表示,李飛飛教授的團隊選擇了一條與主流完全不同的路徑,去探索、“空間智能”。和 Genie3 這種強調交互、實時生成的視頻模型不同,Marble 更關注空間結構本身的合理性與關聯性。

他提到,Marble 不是實時生成的,但可以被實時探索。他用 plus 版大約十分鐘就能生成一個完整的空間環境,裏面可以前進、探索,具備物理空間結構,而不僅僅是視頻幀或深度貼圖。

不過,由於還是早期版本,Marble 生成的只是一個“世界空間的殼”,畫面精度有限,局部模糊,也缺乏光影變化或物理現象的交互。他強調,這並不是大家口中常說的“世界模型”,因爲智能更多體現在生成過程中,而非交互環節。

“它談不上顛覆,但確實展示了另一種可能性。”Jason 說。他認爲,Marble 最大的價值在於從空間維度去探索世界生成,在空間合理性和物理關聯上開了一個新口子。

與 Marble 強調空間幾何不同,谷歌 DeepMind 推出的 Genie 3 代表了另一種邏輯:它關心的是“空間裏正在發生什麼”。

Genie 3 可以通過文本提示生成動態環境,並以每秒 24 幀、720p 的分辨率運行數分鐘。它的獨特之處在於,不依賴動作標籤,而是通過視頻訓練推斷潛在的交互邏輯。例如,給它一張遊戲截圖或一幅火柴人草圖,它能自動推斷出誰是玩家角色,哪些元素可以跳躍、移動或互動。這讓 Genie 3 更像一個“交互物理模擬器”,而非幾何建模工具。

換句話說,如果 Marble 是“舞臺佈景師”,Genie 3 就是“規則設定者”。前者提供一個逼真的空間容器,後者讓容器內的角色與事件真正“活起來”。

一位AI領域資深投資人告訴藍鯨科技,一個真正完整的虛擬世界,需要兩者結合:既要有穩定連貫的空間,也要有動態交互的邏輯。如果說 Marble 提供的是“眼見爲實”的真實感,Genie 3 代表的則是“身臨其境”的互動感。

Marble 背後有 a16z 這樣的科技長期主義者,他們看重的是空間智能可能帶來的平臺化機會——未來或許可以成爲下一代虛擬環境構建工具。Genie 3 的意義則在於強化谷歌在世界模型上的前沿地位,藉此推進具身智能和通用 AI 的研究。兩家機構背後的發心不同,路徑選擇也不同,

不過他認爲,從商業化角度來看,Marble 的短期路徑更清晰,直接面向內容生產行業。而 Genie 3 則更偏科研和前沿探索,距離可規模化應用還有一定距離。

世界模型的產業化路徑

與硅谷的探索不同,中國創業公司正在嘗試讓世界模型快速落地。極佳科技就是其中的代表。極佳科技團隊曾在自動駕駛仿真領域積累多年,幫助多家車企構建虛擬測試環境。公司去年開始轉向具身智能領域。他們發佈了基於世界模型訓練的 VLA(視覺-語言-動作模型)—— GigaBrain,其世界模型平臺 GigaWorld 也將在近期上線,提供更開放的仿真環境。

極佳科技聯合創始人朱政指出,不同領域對“世界模型”的定義差異很大:在 計算機視覺(CV) 領域,研究者更關注視頻生成與畫面一致性;在 強化學習(RL) 領域,重點是爲 agent 提供一個足夠逼真的環境,以便進行動作決策;在 具身智能 方向,則強調如何讓機器人通過世界模型理解環境、執行任務。

“無論哪種定義,核心價值都在於預測未來。”他解釋說,“給定一個動作序列,世界模型需要告訴我們環境會如何變化。這種預測能力可以應用於文生視頻、自動駕駛,也可以體現在機器人動作規劃中。”

在他的規劃中,世界模型的產業化大致經歷三個階段:數據生成階段:用世界模型擴展訓練數據,降低真實採集成本;仿真階段:爲智能體提供閉環仿真環境,提高訓練效率;智能進化階段:最終成爲下一代 VLA,具備推理與行動能力,成爲通用智能的核心。

相比谷歌等大廠的科研導向,中國創業公司的優勢在於“貼近場景”。自動駕駛、工業仿真、VR 內容生產,這些應用都有明確的市場需求。世界模型可以在這些場景中直接發揮價值,從而更快地形成商業閉環。

不過,挑戰同樣存在,生成和訓練世界模型需要極大算力,創業公司難以長期獨立承擔;此外,目前行業對世界模型沒有統一標準,不同技術路線之間缺乏可比性。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10