新智元報道
編輯:編輯部
【新智元導讀】如今的具身智能,早已爆紅AI圈。數據瓶頸、難以多場景泛化等難題,一直困擾着業界的玩家們。就在WAIC上,全新具身智能平臺“悟能”登場了。它以世界模型爲引擎,能爲機器人提供強大感知、導航、多模態交互能力。
WAIC上,各家機器人的火爆,各位已經都見證過了。
不過現在行業遭遇的一個重大瓶頸,就是急缺數據、訓練效率低,讓許多機器人的性能暴漲被卡了脖子。
這樣就導致目前絕大多數具身智能機器人,自主解決問題的能力還比較弱。
怎麼破?商湯有解。
昨天的WAIC上,商湯的具身智能平臺——悟能正式亮相!這是一場真正的炸裂革命。
你只需用一句自然語言描述場景,它就能爲具身智能的訓練生成符合物理規則、多視角統一、真實世界還原度極高的多視角視頻。
也就是說,商湯用自己擅長的世界模型,破解了仿真數據輸出的難題,賦能各種場景的機器人(和機器狗)。
想象一下,你雙手緊握方向盤,腳踩油門,身臨其境地穿梭在城市街頭,光影變幻,七個攝像頭爲你構建出一個無比真實的世界。
別誤會,這不是你在玩《極品飛車》,而是你在和AI一起“開悟”!
接下來的AI,將不再是工具,而是合作者、探索者、創造者。此刻,就是我們一同駛向未來的起點。
商湯“悟能”平臺,爲什麼能爲具身智能做到如此不可思議的賦能?讓我們來仔細看看。
四大功能,讓機器人性能再進一步
首先,機器人的一個核心問題,就是大腦VLA。很多行業的翹楚,都在這個方向推出了自己的模型。
而對於這些領域,商湯既有的能力感知和多模態,就有極大的使用空間。
比如,機器人的感知、導航、交互,以及世界模型,都能助力於機器人構造很好的VLA以及跟世界交互的可能性。
另外,商湯的大裝置,還能給底層提供端側和雲側的核心方案。
具體來說,這個平臺提供了以下功能。
感知
做視覺感知,是商湯的一大強項。
不管是機器狗還是機器人都是帶視覺的,一個天然視覺感知,就是對世界萬物做識別和理解。
左邊爲機器狗的視角,右邊爲機器人的視角
而商湯在這部分的視覺能力,恰好就能完全嵌入到機器人的核心芯片當中,因此,在端側就能處理好這種感知能力。
同時,它們也被賦能去識別場景中的所有物件、行人。
總之,如果在機器人行業中需要做感知,用商湯平臺就再合適不過了。它適配了大量的芯片,包括提供雲和端側處理的能力。
導航
平臺的第二大能力,就是視覺導航。
目前在行業中,雖然已經有了全自主的無人駕駛車,卻還並未出現全自主自動駕駛的機器狗和機器人。
而商湯絕影,恰巧就在做全自主視覺的無人駕駛。
此前,這個團隊已經賦能了許多車企,做端到端的智能駕駛。
這些同樣的模塊,也可以去適配到機器狗和機器人身上。
比如,對機器狗來說,導航就是找到一個非車道以外的、人能行駛的路徑,規劃好路徑以後,來做好避障即可。
因此,同樣的能力可以賦能各式各樣不同的基礎硬件。
下面展示的,便是機器狗行進的過程中,“悟能”實時爲它做出的路徑規劃。
交互
平臺的第三大能力,就是交互工具。
現場,商湯科技董事長兼CEO徐立爲我們舉了一個很有意思的例子——用AI生成《長安的荔枝》的PPT,然後讓機器人給我們來做講解。
這一次,機器人被調適得非常幽默,可以讓我們深刻感受到,它已經從一個交互工具,演變成了一個交互夥伴。
只見這個機器人繪聲繪色地做起了講解,頗具個人風格,期間還不斷爆梗:“難度大概相當於讓你拿小靈通打王者榮耀,想想就知道有多虐!”
“那咱們來算一筆賬,按唐朝的銀子換算,一次運輸得花掉今天的1000萬人民幣!”
注意,在這個過程中,機器人是自己翻PPT的——它很清楚地知道,自己講解的內容是在哪一頁。甚至如果我們對它提問,它還會自己翻回去。
甚至在嘈雜環境中,它也不怕被打斷。即使中間你問它問題,它在講解完後,還會記得自己的主線任務,繼續往下講。
整個過程中都體現出,這個機器人有全局記憶的能力。
甚至有趣的是,上面這個功能,還可以用到機器狗上,對於形態並沒有限制。
從“開悟”,到“悟能”具身世界模型
現在,商湯“開悟”世界模型,已經可以在車裏生成多視角視頻。
這一點,可以說意義重大。原因在於,在虛擬世界裏要生成很多數據去做交互,最關鍵的就是,這些數據在未來可能就是強化學習的一個基礎。
而商湯在自動駕駛上,就已經做到了用一句自然語言去生成一個七視角攝像頭的視頻。
可以看到,它具有很好的空間一致性。(車開過不同攝像頭時,它幾何位置的對應,完全符合物理對空間世界的理解。)
而且,它在時序上也做到了一致性。
比如在這臺車行駛的過程中,幾次把車牌號拉出來一看,都能發現這個世界模型在時序上的生成是一致的。
甚至,世界模型還能做編輯。在這個過程中,可以實時做編輯替換,甚至是插入、刪除現實中的車。
這部分新生成的數據,可以爲AI進入現實世界,提供閉環交互訓練的解決方案。
比如在自動駕駛中,“加塞場景”就是典型的長尾場景,真實數據極其稀缺,而開悟世界模型就提供了高質量的多場景數據(光照、天氣、道路結構)。
最後將所有視角的視頻結合,就彷彿在真實場景中開車一樣。這種交互的真實感與實時性,可以說是“極品飛車”現實版了。
如今,商湯進一步把“開悟”擴展到了具身智能領域,並賦予了它一個全新的名字——“開悟智能”,簡稱“悟能”。
“悟能”具身世界模型,可以通過“人、物、場”,構建一個4D的真實世界。
比如下面是兩張初始視角圖。給出一張具身關節模型,對它下指令“在廚房區域的架子上找東西”,它就可以生成如下的視頻,生成了關節模型的連續位姿。
同樣,如果下指令“進入娛樂室,向右轉,然後打開通往院子的門”,模型也能立刻生成下面的視頻和連續位姿。
這些具身世界模型生成的內容,因爲具有時空一致性,就可以從多個角度去觀察。
比如動作骨架正在完成的,是一個手動切黃瓜的指令,而接下來,它就能同時生成一段“第一人稱”和“第三人稱”視角的機器人切黃瓜視頻。
或者,一段機器人在白天的公園裏跳躍的視頻。同樣,第一、第三人稱視角都一起生成出來了。
爲什麼說,第一視角和第三視角相結合的世界模型如此重要呢?
要知道,機器人並不天然擁有人的直覺,也缺乏對世界的理解。而“悟能”讓機器人同時擁有第一視角和第三視角相結合的世界模型後,相當於給它開了一個外掛。
這樣,它不僅可以通過第一視角,通過傳感器“感知”世界,捕捉到實時環境信息;還能通過第三視角開啓“上帝視角”,看到人類的肢體、骨骼是如何精妙配合、完成每個動作的,相當於擁有人類動作的參考指南。
二者結合後,我們就能知道機器人看到了什麼,應該做什麼動作,由此,機器人真正像人一樣學會了舉一反三,能做更自然流暢的交互,可以做端到端的VLA了。
在以往,要靠數據採集生成這樣的視頻,需要花費大量的時間和精力,如今卻可以飛速完成。
甚至,這個世界模型還能生成不同相機位姿的視頻,因此,我們可以不限位置,把相機放在機器人的任何位置,來模擬生成符合3D關係的4D世界真實視頻。
可以看到,以上這幾大功能,可以讓“悟能”平臺賦能各式各樣的機器人企業,讓機器人和現實世界交互。
比如機器狗從此不會只是巡邏和跳舞,現在它可以陪着小孩放學、陪着老人散步,不僅是守護者,更是貼心的陪伴者。
因爲可以導航去任何地方,它就能知道你要去哪兒,會在路上替你規避危險、應對突發,甚至還能幫你拎東西。
可以說,AI演進的十年曆程,就是AI從感知世界,到理解世界,最終具備與真實世界交互的能力。
除了“悟能”平臺,商湯還會構建更強的世界模型與空間智能,推動AI 邁入真正與物理世界交互的時代,實在是太令人期待了!
具身智能爆火,卻卡在了數據上
具身智能賽道,現已成爲全球AI核心競爭點之一。
不論是谷歌、英偉達等科技大廠,還是諸如Figure、Skilled AI等初創黑馬,對此不斷加碼研發,衝刺萬億級市場。
然而,具身智能機器人在應對多變的現實世界,仍面臨着諸多瓶頸。
這幾天,英偉達傑出科學家Jim Fan對此也吐槽了一番——機器人都會跑酷和跳舞了,怎麼還不能幫我遛狗呢?
他這一現象稱之爲,機器人領域的mini版“莫拉維克悖論”。
這恰恰說明了,具身智能領域的發展,還有很多問題等待被攻克。
傳統機器人通常被設計爲“專才”,針對特定人任務進行優化,缺乏應對多變任務的靈活性。
舉個栗子,送餐機器人更擅長在餐廳環境中導航和遞送食物,卻無法在工業生產線上工作。
這種“單一技能”的模式源於機器人硬件和算法高度定製化,導致不同本體難以實現任務遷移,即我們常說的“本體泛化”。
若要解決這一挑戰,核心便在於設計一個通用的“智能大腦”。
由此一來,即便是不同形態的機器人,都能共享一套算法,適應多樣化的硬件平臺和任務需求。
有了本體泛化還不夠,具身智能如何實現“任務泛化”,是決定其能力的上限。
若要完成“冰箱取食材—切菜—烹飪—端上桌”的任務,長序列規劃、跨模態理解,以及實時糾錯的能力必不可少。
人形機器人Neo
當前難題是,有時因爲光線變化、多步任務缺少中間狀態等,機器人就會翻車。
此外,具身智能發展另一大瓶頸,也是全行業亟待解決的問題——如何實現場景泛化。
它要求機器人在不同環境中,都能準確感知、理解,並於物理世界交互。然而,場景泛化的前提,必須有高質量、多模態的數據加持。
如何獲取這些數據?生成合成數據,成爲了具身智能“Scaling Law”的救命稻草。
爲了應對上述瓶頸,業界逐漸探索出多種技術路線,但尚未形成統一的標準。
以谷歌、Figure、Physical Intelligence爲代表,他們主攻VLA(視覺-語言-動作)模型,通過語言和圖像輸入,直接生成動作。
另一種是“大小腦”架構,將規劃和執行分離。
最後一種便是常見的“世界模型”,目標就是讓機器人能夠像人類一樣“理解世界”。
無論是哪種技術路線,皆需要高質量多模數據爲支撐。
這一次,商湯WAIC現場帶來的“悟能”具身智能平臺,是一個具備全棧能力的AI大腦。
不論是在感知、視覺導航,還是交互、生成多樣高質數據上,“悟能”爲機器人行業提供了全面的賦能。
做這件事的人,爲什麼是商湯?
AI刻在DNA,商湯在下一盤大棋
作爲計算機領域的先行者,商湯的入局並非偶然,而是技術基因和戰略眼光的必然延伸。
多年來,這家AI公司在多模態大模型、算力基礎設施,以及產業生態各方面,有着深厚的積累。
在技術佈局的過程中,商湯經歷了從“視覺感知”到“多模態推理”的探索。
2022年,“元蘿蔔”機器人的發佈,初步構建了“視覺-感知-決策”的閉環。
它不僅能識別棋子,還能在遮擋情況下實現精準抓取。這一突破標誌着,商湯向物理世界交互的具身智能邁進。
在大模型掀起的熱潮中,商湯多次迭代了“日日新大模型”,通過原生融合模態訓練,在多模態推理和長思維鏈能力上,取得了頂尖的性能。
而且,日日新早已用在傅利葉、歸墟等公司的機器人“大腦”上。
這一次,徐立又帶着最新的SenseNova V6.5來了。
在多模態推理上,V6.5與Gemini 2.5 Pro不相上下;在交互性能上,多榜單刷新SOTA,並且推理成本狂降到30%。
另一方面,商湯的AI大裝置SenseCore 2.0,能爲其具身智能平臺提供強大的算力支持。
截至2024年底,商湯大裝置運營的“總算力規模”已達23,000PetaFlops。
通過預填充和解碼分離等優化技術,SenseCore能提升GPU利用率和推理效率,降低了模型的部署成本。
這種端雲協同架構,可以支撐從數據生產、模型訓練,到仿真測試的全流程,提供了一站式解決方案。
除了底層能力的積累,商湯在生態方面也在加速佈局。
商湯旗下國香資本,投資了銀河通用、衆擎、鈦虎等多傢俱身智能企業,覆蓋了本體、運控、關鍵模組等全產業鏈環節。
龐大的具身智能“朋友圈”,能讓商湯更瞭解產業痛點,加速技術驗證和迭代,進而反哺和優化模型算法。
在人才儲備上,商湯匯聚了多位頂尖行業學者,比如深度學習與計算機領域的專家林達華、王曉剛等等。
從技術演進,到算力、生態、人才的全面佈局,充分展現了商湯“三位一體”的綜合實力。
具身智能的黃金時代已悄然開啓,商湯“悟能”平臺的發佈恰逢其時。
在這場激烈的競爭中,“悟能”不僅是對商湯技術基因的延伸,更有望成爲撬動具身智能“第二增長曲線”的關鍵支點。
未來,在智能製造、醫療護理、家庭服務等多場景中,具身智能蘊藏着萬億級市場價值。
商湯正以王者之姿,點燃具身智能的引爆點,讓機器人成爲所有人的“超級隊友”。