機器人WAIC現場搶活講PPT?商湯悟能具身智能平臺讓機器人“覺醒”

新智元
07-28

新智元報道

編輯:編輯部

【新智元導讀】如今的具身智能,早已爆紅AI圈。數據瓶頸、難以多場景泛化等難題,一直困擾着業界的玩家們。就在WAIC上,全新具身智能平臺“悟能”登場了。它以世界模型爲引擎,能爲機器人提供強大感知、導航、多模態交互能力。

WAIC上,各家機器人的火爆,各位已經都見證過了。

不過現在行業遭遇的一個重大瓶頸,就是急缺數據、訓練效率低,讓許多機器人的性能暴漲被卡了脖子。

這樣就導致目前絕大多數具身智能機器人,自主解決問題的能力還比較弱。

怎麼破?商湯有解。

昨天的WAIC上,商湯的具身智能平臺——悟能正式亮相!這是一場真正的炸裂革命。

你只需用一句自然語言描述場景,它就能爲具身智能的訓練生成符合物理規則、多視角統一、真實世界還原度極高的多視角視頻。

也就是說,商湯用自己擅長的世界模型,破解了仿真數據輸出的難題,賦能各種場景的機器人(和機器狗)。

想象一下,你雙手緊握方向盤,腳踩油門,身臨其境地穿梭在城市街頭,光影變幻,七個攝像頭爲你構建出一個無比真實的世界。

別誤會,這不是你在玩《極品飛車》,而是你在和AI一起“開悟”!

接下來的AI,將不再是工具,而是合作者、探索者、創造者。此刻,就是我們一同駛向未來的起點。

商湯“悟能”平臺,爲什麼能爲具身智能做到如此不可思議的賦能?讓我們來仔細看看。

四大功能,讓機器人性能再進一步

首先,機器人的一個核心問題,就是大腦VLA。很多行業的翹楚,都在這個方向推出了自己的模型。

而對於這些領域,商湯既有的能力感知和多模態,就有極大的使用空間。

比如,機器人的感知、導航、交互,以及世界模型,都能助力於機器人構造很好的VLA以及跟世界交互的可能性。

另外,商湯的大裝置,還能給底層提供端側和雲側的核心方案。

具體來說,這個平臺提供了以下功能。

感知

做視覺感知,是商湯的一大強項。

不管是機器狗還是機器人都是帶視覺的,一個天然視覺感知,就是對世界萬物做識別和理解。

左邊爲機器狗的視角,右邊爲機器人的視角

而商湯在這部分的視覺能力,恰好就能完全嵌入到機器人的核心芯片當中,因此,在端側就能處理好這種感知能力。

同時,它們也被賦能去識別場景中的所有物件、行人。

總之,如果在機器人行業中需要做感知,用商湯平臺就再合適不過了。它適配了大量的芯片,包括提供雲和端側處理的能力。

導航

平臺的第二大能力,就是視覺導航。

目前在行業中,雖然已經有了全自主的無人駕駛車,卻還並未出現全自主自動駕駛的機器狗和機器人。

而商湯絕影,恰巧就在做全自主視覺的無人駕駛。

此前,這個團隊已經賦能了許多車企,做端到端的智能駕駛。

這些同樣的模塊,也可以去適配到機器狗和機器人身上。

比如,對機器狗來說,導航就是找到一個非車道以外的、人能行駛的路徑,規劃好路徑以後,來做好避障即可。

因此,同樣的能力可以賦能各式各樣不同的基礎硬件。

下面展示的,便是機器狗行進的過程中,“悟能”實時爲它做出的路徑規劃。

交互

平臺的第三大能力,就是交互工具。

現場,商湯科技董事長兼CEO徐立爲我們舉了一個很有意思的例子——用AI生成《長安的荔枝》的PPT,然後讓機器人給我們來做講解。

這一次,機器人被調適得非常幽默,可以讓我們深刻感受到,它已經從一個交互工具,演變成了一個交互夥伴。

只見這個機器人繪聲繪色地做起了講解,頗具個人風格,期間還不斷爆梗:“難度大概相當於讓你拿小靈通打王者榮耀,想想就知道有多虐!”

“那咱們來算一筆賬,按唐朝的銀子換算,一次運輸得花掉今天的1000萬人民幣!”

注意,在這個過程中,機器人是自己翻PPT的——它很清楚地知道,自己講解的內容是在哪一頁。甚至如果我們對它提問,它還會自己翻回去。

甚至在嘈雜環境中,它也不怕被打斷。即使中間你問它問題,它在講解完後,還會記得自己的主線任務,繼續往下講。

整個過程中都體現出,這個機器人有全局記憶的能力。

甚至有趣的是,上面這個功能,還可以用到機器狗上,對於形態並沒有限制。

從“開悟”,到“悟能”具身世界模型

現在,商湯“開悟”世界模型,已經可以在車裏生成多視角視頻。

這一點,可以說意義重大。原因在於,在虛擬世界裏要生成很多數據去做交互,最關鍵的就是,這些數據在未來可能就是強化學習的一個基礎。

而商湯在自動駕駛上,就已經做到了用一句自然語言去生成一個七視角攝像頭的視頻。

可以看到,它具有很好的空間一致性。(車開過不同攝像頭時,它幾何位置的對應,完全符合物理對空間世界的理解。)

而且,它在時序上也做到了一致性。

比如在這臺車行駛的過程中,幾次把車牌號拉出來一看,都能發現這個世界模型在時序上的生成是一致的。

甚至,世界模型還能做編輯。在這個過程中,可以實時做編輯替換,甚至是插入、刪除現實中的車。

這部分新生成的數據,可以爲AI進入現實世界,提供閉環交互訓練的解決方案。

比如在自動駕駛中,“加塞場景”就是典型的長尾場景,真實數據極其稀缺,而開悟世界模型就提供了高質量的多場景數據(光照、天氣、道路結構)。

最後將所有視角的視頻結合,就彷彿在真實場景中開車一樣。這種交互的真實感與實時性,可以說是“極品飛車”現實版了。

如今,商湯進一步把“開悟”擴展到了具身智能領域,並賦予了它一個全新的名字——“開悟智能”,簡稱“悟能”。

“悟能”具身世界模型,可以通過“人、物、場”,構建一個4D的真實世界。

比如下面是兩張初始視角圖。給出一張具身關節模型,對它下指令“在廚房區域的架子上找東西”,它就可以生成如下的視頻,生成了關節模型的連續位姿。

同樣,如果下指令“進入娛樂室,向右轉,然後打開通往院子的門”,模型也能立刻生成下面的視頻和連續位姿。

這些具身世界模型生成的內容,因爲具有時空一致性,就可以從多個角度去觀察。

比如動作骨架正在完成的,是一個手動切黃瓜的指令,而接下來,它就能同時生成一段“第一人稱”和“第三人稱”視角的機器人切黃瓜視頻。

或者,一段機器人在白天的公園裏跳躍的視頻。同樣,第一、第三人稱視角都一起生成出來了。

爲什麼說,第一視角和第三視角相結合的世界模型如此重要呢?

要知道,機器人並不天然擁有人的直覺,也缺乏對世界的理解。而“悟能”讓機器人同時擁有第一視角和第三視角相結合的世界模型後,相當於給它開了一個外掛。

這樣,它不僅可以通過第一視角,通過傳感器“感知”世界,捕捉到實時環境信息;還能通過第三視角開啓“上帝視角”,看到人類的肢體、骨骼是如何精妙配合、完成每個動作的,相當於擁有人類動作的參考指南。

二者結合後,我們就能知道機器人看到了什麼,應該做什麼動作,由此,機器人真正像人一樣學會了舉一反三,能做更自然流暢的交互,可以做端到端的VLA了。

在以往,要靠數據採集生成這樣的視頻,需要花費大量的時間和精力,如今卻可以飛速完成。

甚至,這個世界模型還能生成不同相機位姿的視頻,因此,我們可以不限位置,把相機放在機器人的任何位置,來模擬生成符合3D關係的4D世界真實視頻。

可以看到,以上這幾大功能,可以讓“悟能”平臺賦能各式各樣的機器人企業,讓機器人和現實世界交互。

比如機器狗從此不會只是巡邏和跳舞,現在它可以陪着小孩放學、陪着老人散步,不僅是守護者,更是貼心的陪伴者。

因爲可以導航去任何地方,它就能知道你要去哪兒,會在路上替你規避危險、應對突發,甚至還能幫你拎東西。

可以說,AI演進的十年曆程,就是AI從感知世界,到理解世界,最終具備與真實世界交互的能力。

除了“悟能”平臺,商湯還會構建更強的世界模型與空間智能,推動AI 邁入真正與物理世界交互的時代,實在是太令人期待了!

具身智能爆火,卻卡在了數據上

具身智能賽道,現已成爲全球AI核心競爭點之一。

不論是谷歌英偉達等科技大廠,還是諸如Figure、Skilled AI等初創黑馬,對此不斷加碼研發,衝刺萬億級市場。

然而,具身智能機器人在應對多變的現實世界,仍面臨着諸多瓶頸。

這幾天,英偉達傑出科學家Jim Fan對此也吐槽了一番——機器人都會跑酷和跳舞了,怎麼還不能幫我遛狗呢?

他這一現象稱之爲,機器人領域的mini版“莫拉維克悖論”。

這恰恰說明了,具身智能領域的發展,還有很多問題等待被攻克。

傳統機器人通常被設計爲“專才”,針對特定人任務進行優化,缺乏應對多變任務的靈活性。

舉個栗子,送餐機器人更擅長在餐廳環境中導航和遞送食物,卻無法在工業生產線上工作。

這種“單一技能”的模式源於機器人硬件和算法高度定製化,導致不同本體難以實現任務遷移,即我們常說的“本體泛化”。

若要解決這一挑戰,核心便在於設計一個通用的“智能大腦”。

由此一來,即便是不同形態的機器人,都能共享一套算法,適應多樣化的硬件平臺和任務需求。

有了本體泛化還不夠,具身智能如何實現“任務泛化”,是決定其能力的上限。

若要完成“冰箱取食材—切菜—烹飪—端上桌”的任務,長序列規劃、跨模態理解,以及實時糾錯的能力必不可少。

人形機器人Neo

當前難題是,有時因爲光線變化、多步任務缺少中間狀態等,機器人就會翻車。

此外,具身智能發展另一大瓶頸,也是全行業亟待解決的問題——如何實現場景泛化。

它要求機器人在不同環境中,都能準確感知、理解,並於物理世界交互。然而,場景泛化的前提,必須有高質量、多模態的數據加持。

如何獲取這些數據?生成合成數據,成爲了具身智能“Scaling Law”的救命稻草。

爲了應對上述瓶頸,業界逐漸探索出多種技術路線,但尚未形成統一的標準。

谷歌、Figure、Physical Intelligence爲代表,他們主攻VLA(視覺-語言-動作)模型,通過語言和圖像輸入,直接生成動作。

另一種是“大小腦”架構,將規劃和執行分離。

最後一種便是常見的“世界模型”,目標就是讓機器人能夠像人類一樣“理解世界”。

無論是哪種技術路線,皆需要高質量多模數據爲支撐。

這一次,商湯WAIC現場帶來的“悟能”具身智能平臺,是一個具備全棧能力的AI大腦。

不論是在感知、視覺導航,還是交互、生成多樣高質數據上,“悟能”爲機器人行業提供了全面的賦能。

做這件事的人,爲什麼是商湯?

AI刻在DNA,商湯在下一盤大棋

作爲計算機領域的先行者,商湯的入局並非偶然,而是技術基因和戰略眼光的必然延伸。

多年來,這家AI公司在多模態大模型、算力基礎設施,以及產業生態各方面,有着深厚的積累。

在技術佈局的過程中,商湯經歷了從“視覺感知”到“多模態推理”的探索。

2022年,“元蘿蔔”機器人的發佈,初步構建了“視覺-感知-決策”的閉環。

它不僅能識別棋子,還能在遮擋情況下實現精準抓取。這一突破標誌着,商湯向物理世界交互的具身智能邁進。

在大模型掀起的熱潮中,商湯多次迭代了“日日新大模型”,通過原生融合模態訓練,在多模態推理和長思維鏈能力上,取得了頂尖的性能。

而且,日日新早已用在傅利葉、歸墟等公司的機器人“大腦”上。

這一次,徐立又帶着最新的SenseNova V6.5來了。

在多模態推理上,V6.5與Gemini 2.5 Pro不相上下;在交互性能上,多榜單刷新SOTA,並且推理成本狂降到30%。

另一方面,商湯的AI大裝置SenseCore 2.0,能爲其具身智能平臺提供強大的算力支持。

截至2024年底,商湯大裝置運營的“總算力規模”已達23,000PetaFlops。

通過預填充和解碼分離等優化技術,SenseCore能提升GPU利用率和推理效率,降低了模型的部署成本。

這種端雲協同架構,可以支撐從數據生產、模型訓練,到仿真測試的全流程,提供了一站式解決方案。

除了底層能力的積累,商湯在生態方面也在加速佈局。

商湯旗下國香資本,投資了銀河通用、衆擎、鈦虎等多傢俱身智能企業,覆蓋了本體、運控、關鍵模組等全產業鏈環節。

龐大的具身智能“朋友圈”,能讓商湯更瞭解產業痛點,加速技術驗證和迭代,進而反哺和優化模型算法。

在人才儲備上,商湯匯聚了多位頂尖行業學者,比如深度學習與計算機領域的專家林達華、王曉剛等等。

從技術演進,到算力、生態、人才的全面佈局,充分展現了商湯“三位一體”的綜合實力。

具身智能的黃金時代已悄然開啓,商湯“悟能”平臺的發佈恰逢其時。

在這場激烈的競爭中,“悟能”不僅是對商湯技術基因的延伸,更有望成爲撬動具身智能“第二增長曲線”的關鍵支點。

未來,在智能製造、醫療護理、家庭服務等多場景中,具身智能蘊藏着萬億級市場價值。

商湯正以王者之姿,點燃具身智能的引爆點,讓機器人成爲所有人的“超級隊友”。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10