智元世界模型：機器人的「大腦」，還是市值翻十倍的「樣板間」？

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

（來源：觀察者網）

8月14日，智元機器人把7月亮相過的世界模型GenieEnvisioner（GE）正式開源，並再次打出「行業首個面向雙臂真機的世界模型」的概念。

官方演示裏，機器人連續完成做三明治、倒茶、擦桌、用微波爐、裝箱等長鏈條任務，看上去已頗具「人味兒」。

不過，這份「人味兒」能否在已經沸騰的二級市場上再來一次「空中加油」，還要看週一開盤。

此前的7月8日，智元機器人公告，正在通過「協議轉讓+要約收購」拿下材料供應商上緯新材63.62%的股權。而自公告以來，上緯新材一路走出11個漲停，市值從30億元最高衝到400多億元。

可以說，智元還沒把世界模型賣進工廠，就已經把自己市值的槓桿放大到了資本市場。

智元GE 視頻截圖

智元的GE做了什麼？

從智元官方發佈的信息中可以看出，GE的核心突破在於，構建了基於世界模型的以視覺中心的建模範式。

不同於主流VLA（Vision-Language-Action）方法依賴視覺-語言模型將視覺輸入映射到語言空間進行間接建模，GE直接在視覺空間中建模機器人與環境的交互動態。

這種方法完整保留了操控過程中的空間結構和時序演化信息，實現了對機器人-環境動態更精確、更直接的建模。

智元表示，基於3000小時真機數據，GE-Act在跨平臺泛化和長時序任務執行上顯著超越現有SOTA，也為具身智能打開了從視覺理解到動作執行的技術路徑。

此外，智元機器人團隊還宣佈，將開源全部代碼、預訓練模型和評測工具。

智元方面表示，這是行業內首個真正面向真實世界雙臂機器人的世界模型。GE平臺把「預測—控制—評估「環節整合到了一起，標誌着機器人從被動執行指令，轉變為主動「想象—驗證—行動「。

換句話說，機器人能夠像人類一樣，在實際操作前於「腦海」中模擬並驗證動作。

據介紹，藉助GE模型，智元機器人已成功實現半身移動任務，包括製作三明治、倒茶、擦拭桌面、使用微波爐加熱以及在流水線上進行裝箱等五項任務的依次完成。

智元機器人官方網站

「機器人公司不做大模型將沒有未來。」此前，在智元機器人發佈首個通用具身基座大模型智元啓元大模型之後，智元合夥人、具身業務部總裁姚卯青和智元具身研究中心常務主任任廣輝曾這樣表示過。

目前的大語言模型，仍普遍存在推理時間長，實時性差等問題。搭載大語言模型的機器人，控制在線決策至少需50毫秒，一般延遲為1至5秒，完全無法滿足工業場景3至10毫秒的需要。

而本次智元機器人推出的，就是基於目前大語言模型技術限制而生的世界模型，是以智能體身體與環境的實時感知和交互為基礎，構建的用於理解、預測和適應環境動態變化的模型。

具體來說，世界模型能夠讓智能體通過「想象」不同行動策略的未來狀態序列，提前規劃好步驟，選擇最佳方案來執行。

智元AgiBotWorld 視頻截圖

3000小時數據，其實可有可無？

從傳播的角度來看，智元機器人發佈的開源世界模型，確實可以說是一次「秀肌肉」。不過如果深入到技術上，事情可能會有不同。

世界模型所需要的的訓練數據，遠超目前還未鋪開的具身智能機器人可以提供的能力。

在今年6月，Meta開源發佈的V-JEPA 2世界模型就使用了超過100萬小時的互聯網視頻和圖像數據進行預訓練，不依賴語言監督；而谷歌旗下DeepMind的Genie3則採用了大量遊戲引擎生成的數據集，也有消息稱Genie3的訓練數據或包含谷歌旗下的知名視頻網站YouTube的視頻及更多內容（儘管DeepMind稱對此「持謹慎態度」）。

與之相比，目前搭載具身智能的機器人普遍還處於探索階段，能產生的真機數據量級並不大，就以智元機器人本次訓練使用的3000小時數據來說，其實對於世界模型能力本身的訓練提升作用，微乎其微。

3000小時的真機數據對世界模型本身的能力增益，就像往長江裏倒一桶純淨水——有比沒有好，但沒人靠它漲潮。

其實，關於具身智能機器人的數據需要，行業也存在爭論：另一部分觀點認為，世界模型的能力提升，與具身智能領域的數據多寡之間，並無強關聯。

此前，在2025世界機器人大會上，國內具身智能領域另一龍頭企業宇樹科技的創始人王興興曾表示：「目前全球範圍內，大家對於機器人數據問題的關注度，都有點太高了。現在最大的問題其實反而是模型。」

他認為，目前具身智能和機器人的模型架構不夠好，也不夠統一。

「在大語言模型領域，當有了足夠多的好數據時，就能把模型訓練得越來越好。但是在具身智能領域，會發現在很多情況下，數據採了卻用不起來。大家對模型的關注目前是相對有點少，反而對數據關注有點太高了。」

世界模型是「地基」，具身智能是「樓房」

相關從業人士對觀察者網表示，具身智能領域的「數據集不是越大越好」可能需要這樣解釋：世界模型本身的發展還需要依靠更多的互聯網圖像、視頻，乃至於目前正在發展的AI眼鏡等智能硬件產品提供的視覺信息。

而在具身智能領域進行的世界模型側研發，更多是基於機器人的訓練數據進行針對性的優化，對於模型本身的基礎性能並沒有太大的提升作用，因為具身智能機器人目前還沒有辦法提供能夠滿足模型訓練需求的數據量。

在這個過程中，世界模型的基礎能力是整個系統的「認知地基」。地基越紮實，模型對真實世界的擬合精度與預測效能就越強，機器人的「大腦」做出正確決策的能力也就越強，其滿足實際落地場景所需要的實機訓練數據量就有可能減少。

所以，世界模型和具身智能今天雖然被頻繁地放在同一個句子裏，但它們其實處在兩條不同的時間軸上。

世界模型的目標，首先是用來自整個互聯網的視頻與圖像信息去理解、預測乃至生成整個物理世界，它更像通用大模型的下一站：數據胃口以百萬小時計，技術階段上則更類似當年ChatGPT剛出現時的大語言模型，模型架構仍在快速迭代，尚未收斂。

而具身智能的核心訴求，則是讓機器人完成具體任務——倒水、裝配、擦桌子。現階段的技術成熟度大約相當於2016年的自動駕駛：硬件基本可用，算法的「大腦」仍需大量工程打磨。

換句話說，世界模型是「認知地基」，需要海量通用視覺數據來夯實；具身智能是「上層建築」，依賴少量高成本的真機數據來精雕細琢。地基越深，未來樓房可以蓋得越高，但地基的混凝土並不來自樓房本身，二者互補卻並不同步，一邊向下深挖，一邊向上搭建。

「地基」夯實尚需時日，「樣板間」暴漲是否為時過早？

比技術進展更吸睛的，是另一層面的消息：

此前，有消息稱，智元機器人已通過「協議轉讓+要約收購」的方式拿下了材料供應商上緯新材63.62%股權。

從技術和供應鏈上來看，上緯新材的主打產品包括PEEK（聚醚醚酮）等輕量化複合材料，可讓機器人外殼和關節減重30%以上；智元控股後，既是鎖定關鍵材料供應，又能用機器人實測數據反向優化適配。

從資本視角看，在「具身智能」概念啱啱興起，領頭企業尚且稀缺的A股，智元在借殼上緯新材之後，如今似乎又開始給投資人一個「機器人大腦」來標的。

自7月8日公告以來，上緯新材股價從30億元市值最高衝到400多億元，走出11個「20cm」漲停，智元還沒把世界模型和具身只能真正落地到工廠，其市值槓桿卻被放大到了資本市場。

由此來看，世界模型能不能讓機器人「長腦子」尚且未有定論，但股民卻在這之前就已經被「點燃」。

數據飛輪、模型瓶頸、合成數據、仿真+真機混合、大模型互聯網、分層過渡，種種技術路線上還籠罩着揮之不去的迷霧，而資本卻硬生生在這個時候給具身智能領域打上了第三根座標軸——能否證券化。

智元通過控股上緯新材，把「地基」和「樓房」打包成可交易資產包；其餘五派仍停留在技術PPT階段。當技術路線尚未收斂、Benchmark尚未統一時，資本搶先定價，行業被提前拖入「市夢率」博弈。

現在的情況下，其實可以從對待世界模型的態度分出兩派：

•數據飛輪派（智元-姚卯青）：開源1000萬條真機軌跡，一起把飛輪轉起來。

•模型瓶頸派（宇樹-王興興）：硬件夠用、數據夠多也白搭，架構必須推倒重來。

二級市場用10倍漲幅給「飛輪」投了票，但技術層面，仍無人能具現王興興提出的「原生具身大模型」。

智元把GE開源，是一次漂亮的科普；控股上緯新材，是一次成功的資本運作。樣板間已搭好，地基仍在打樁，而參觀隊伍裏，一半是工程師，一半是交易員。

世界模型2-5年才能跑出的Benchmark，資本市場2-5天就給出了估值。到底是世界模型成就了機器人，還是機器人概念成就了市值？

答案會寫在下一版Benchmark和下一季報裏。

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

智元世界模型：機器人的「大腦」，還是市值翻十倍的「樣板間」？

熱議股票