機器人WAIC現場搶活講PPT？商湯悟能具身智能平臺讓機器人“覺醒”

新智元報道

編輯：編輯部

【新智元導讀】如今的具身智能，早已爆紅AI圈。數據瓶頸、難以多場景泛化等難題，一直困擾着業界的玩家們。就在WAIC上，全新具身智能平臺“悟能”登場了。它以世界模型爲引擎，能爲機器人提供強大感知、導航、多模態交互能力。

WAIC上，各家機器人的火爆，各位已經都見證過了。

不過現在行業遭遇的一個重大瓶頸，就是急缺數據、訓練效率低，讓許多機器人的性能暴漲被卡了脖子。

這樣就導致目前絕大多數具身智能機器人，自主解決問題的能力還比較弱。

怎麼破？商湯有解。

昨天的WAIC上，商湯的具身智能平臺——悟能正式亮相！這是一場真正的炸裂革命。

你只需用一句自然語言描述場景，它就能爲具身智能的訓練生成符合物理規則、多視角統一、真實世界還原度極高的多視角視頻。

也就是說，商湯用自己擅長的世界模型，破解了仿真數據輸出的難題，賦能各種場景的機器人（和機器狗）。

想象一下，你雙手緊握方向盤，腳踩油門，身臨其境地穿梭在城市街頭，光影變幻，七個攝像頭爲你構建出一個無比真實的世界。

別誤會，這不是你在玩《極品飛車》，而是你在和AI一起“開悟”！

接下來的AI，將不再是工具，而是合作者、探索者、創造者。此刻，就是我們一同駛向未來的起點。

商湯“悟能”平臺，爲什麼能爲具身智能做到如此不可思議的賦能？讓我們來仔細看看。

四大功能，讓機器人性能再進一步

首先，機器人的一個核心問題，就是大腦VLA。很多行業的翹楚，都在這個方向推出了自己的模型。

而對於這些領域，商湯既有的能力感知和多模態，就有極大的使用空間。

比如，機器人的感知、導航、交互，以及世界模型，都能助力於機器人構造很好的VLA以及跟世界交互的可能性。

另外，商湯的大裝置，還能給底層提供端側和雲側的核心方案。

具體來說，這個平臺提供了以下功能。

感知

做視覺感知，是商湯的一大強項。

不管是機器狗還是機器人都是帶視覺的，一個天然視覺感知，就是對世界萬物做識別和理解。

左邊爲機器狗的視角，右邊爲機器人的視角

而商湯在這部分的視覺能力，恰好就能完全嵌入到機器人的核心芯片當中，因此，在端側就能處理好這種感知能力。

同時，它們也被賦能去識別場景中的所有物件、行人。

總之，如果在機器人行業中需要做感知，用商湯平臺就再合適不過了。它適配了大量的芯片，包括提供雲和端側處理的能力。

導航

平臺的第二大能力，就是視覺導航。

目前在行業中，雖然已經有了全自主的無人駕駛車，卻還並未出現全自主自動駕駛的機器狗和機器人。

而商湯絕影，恰巧就在做全自主視覺的無人駕駛。

此前，這個團隊已經賦能了許多車企，做端到端的智能駕駛。

這些同樣的模塊，也可以去適配到機器狗和機器人身上。

比如，對機器狗來說，導航就是找到一個非車道以外的、人能行駛的路徑，規劃好路徑以後，來做好避障即可。

因此，同樣的能力可以賦能各式各樣不同的基礎硬件。

下面展示的，便是機器狗行進的過程中，“悟能”實時爲它做出的路徑規劃。

交互

平臺的第三大能力，就是交互工具。

現場，商湯科技董事長兼CEO徐立爲我們舉了一個很有意思的例子——用AI生成《長安的荔枝》的PPT，然後讓機器人給我們來做講解。

這一次，機器人被調適得非常幽默，可以讓我們深刻感受到，它已經從一個交互工具，演變成了一個交互夥伴。

只見這個機器人繪聲繪色地做起了講解，頗具個人風格，期間還不斷爆梗：“難度大概相當於讓你拿小靈通打王者榮耀，想想就知道有多虐！”

“那咱們來算一筆賬，按唐朝的銀子換算，一次運輸得花掉今天的1000萬人民幣！”

注意，在這個過程中，機器人是自己翻PPT的——它很清楚地知道，自己講解的內容是在哪一頁。甚至如果我們對它提問，它還會自己翻回去。

甚至在嘈雜環境中，它也不怕被打斷。即使中間你問它問題，它在講解完後，還會記得自己的主線任務，繼續往下講。

整個過程中都體現出，這個機器人有全局記憶的能力。

甚至有趣的是，上面這個功能，還可以用到機器狗上，對於形態並沒有限制。

從“開悟”，到“悟能”具身世界模型

現在，商湯“開悟”世界模型，已經可以在車裏生成多視角視頻。

這一點，可以說意義重大。原因在於，在虛擬世界裏要生成很多數據去做交互，最關鍵的就是，這些數據在未來可能就是強化學習的一個基礎。

而商湯在自動駕駛上，就已經做到了用一句自然語言去生成一個七視角攝像頭的視頻。

可以看到，它具有很好的空間一致性。（車開過不同攝像頭時，它幾何位置的對應，完全符合物理對空間世界的理解。）

而且，它在時序上也做到了一致性。

比如在這臺車行駛的過程中，幾次把車牌號拉出來一看，都能發現這個世界模型在時序上的生成是一致的。

甚至，世界模型還能做編輯。在這個過程中，可以實時做編輯替換，甚至是插入、刪除現實中的車。

這部分新生成的數據，可以爲AI進入現實世界，提供閉環交互訓練的解決方案。

比如在自動駕駛中，“加塞場景”就是典型的長尾場景，真實數據極其稀缺，而開悟世界模型就提供了高質量的多場景數據（光照、天氣、道路結構）。

最後將所有視角的視頻結合，就彷彿在真實場景中開車一樣。這種交互的真實感與實時性，可以說是“極品飛車”現實版了。

如今，商湯進一步把“開悟”擴展到了具身智能領域，並賦予了它一個全新的名字——“開悟智能”，簡稱“悟能”。

“悟能”具身世界模型，可以通過“人、物、場”，構建一個4D的真實世界。

比如下面是兩張初始視角圖。給出一張具身關節模型，對它下指令“在廚房區域的架子上找東西”，它就可以生成如下的視頻，生成了關節模型的連續位姿。

同樣，如果下指令“進入娛樂室，向右轉，然後打開通往院子的門”，模型也能立刻生成下面的視頻和連續位姿。

這些具身世界模型生成的內容，因爲具有時空一致性，就可以從多個角度去觀察。

比如動作骨架正在完成的，是一個手動切黃瓜的指令，而接下來，它就能同時生成一段“第一人稱”和“第三人稱”視角的機器人切黃瓜視頻。

或者，一段機器人在白天的公園裏跳躍的視頻。同樣，第一、第三人稱視角都一起生成出來了。

爲什麼說，第一視角和第三視角相結合的世界模型如此重要呢？

要知道，機器人並不天然擁有人的直覺，也缺乏對世界的理解。而“悟能”讓機器人同時擁有第一視角和第三視角相結合的世界模型後，相當於給它開了一個外掛。

這樣，它不僅可以通過第一視角，通過傳感器“感知”世界，捕捉到實時環境信息；還能通過第三視角開啓“上帝視角”，看到人類的肢體、骨骼是如何精妙配合、完成每個動作的，相當於擁有人類動作的參考指南。

二者結合後，我們就能知道機器人看到了什麼，應該做什麼動作，由此，機器人真正像人一樣學會了舉一反三，能做更自然流暢的交互，可以做端到端的VLA了。

在以往，要靠數據採集生成這樣的視頻，需要花費大量的時間和精力，如今卻可以飛速完成。

甚至，這個世界模型還能生成不同相機位姿的視頻，因此，我們可以不限位置，把相機放在機器人的任何位置，來模擬生成符合3D關係的4D世界真實視頻。

可以看到，以上這幾大功能，可以讓“悟能”平臺賦能各式各樣的機器人企業，讓機器人和現實世界交互。

比如機器狗從此不會只是巡邏和跳舞，現在它可以陪着小孩放學、陪着老人散步，不僅是守護者，更是貼心的陪伴者。

因爲可以導航去任何地方，它就能知道你要去哪兒，會在路上替你規避危險、應對突發，甚至還能幫你拎東西。

可以說，AI演進的十年曆程，就是AI從感知世界，到理解世界，最終具備與真實世界交互的能力。

除了“悟能”平臺，商湯還會構建更強的世界模型與空間智能，推動AI 邁入真正與物理世界交互的時代，實在是太令人期待了！

具身智能爆火，卻卡在了數據上

具身智能賽道，現已成爲全球AI核心競爭點之一。

不論是谷歌、英偉達等科技大廠，還是諸如Figure、Skilled AI等初創黑馬，對此不斷加碼研發，衝刺萬億級市場。

然而，具身智能機器人在應對多變的現實世界，仍面臨着諸多瓶頸。

這幾天，英偉達傑出科學家Jim Fan對此也吐槽了一番——機器人都會跑酷和跳舞了，怎麼還不能幫我遛狗呢？

他這一現象稱之爲，機器人領域的mini版“莫拉維克悖論”。

這恰恰說明了，具身智能領域的發展，還有很多問題等待被攻克。

傳統機器人通常被設計爲“專才”，針對特定人任務進行優化，缺乏應對多變任務的靈活性。

舉個栗子，送餐機器人更擅長在餐廳環境中導航和遞送食物，卻無法在工業生產線上工作。

這種“單一技能”的模式源於機器人硬件和算法高度定製化，導致不同本體難以實現任務遷移，即我們常說的“本體泛化”。

若要解決這一挑戰，核心便在於設計一個通用的“智能大腦”。

由此一來，即便是不同形態的機器人，都能共享一套算法，適應多樣化的硬件平臺和任務需求。

有了本體泛化還不夠，具身智能如何實現“任務泛化”，是決定其能力的上限。

若要完成“冰箱取食材—切菜—烹飪—端上桌”的任務，長序列規劃、跨模態理解，以及實時糾錯的能力必不可少。

人形機器人Neo

當前難題是，有時因爲光線變化、多步任務缺少中間狀態等，機器人就會翻車。

此外，具身智能發展另一大瓶頸，也是全行業亟待解決的問題——如何實現場景泛化。

它要求機器人在不同環境中，都能準確感知、理解，並於物理世界交互。然而，場景泛化的前提，必須有高質量、多模態的數據加持。

如何獲取這些數據？生成合成數據，成爲了具身智能“Scaling Law”的救命稻草。

爲了應對上述瓶頸，業界逐漸探索出多種技術路線，但尚未形成統一的標準。

以谷歌、Figure、Physical Intelligence爲代表，他們主攻VLA（視覺-語言-動作）模型，通過語言和圖像輸入，直接生成動作。

另一種是“大小腦”架構，將規劃和執行分離。

最後一種便是常見的“世界模型”，目標就是讓機器人能夠像人類一樣“理解世界”。

無論是哪種技術路線，皆需要高質量多模數據爲支撐。

這一次，商湯WAIC現場帶來的“悟能”具身智能平臺，是一個具備全棧能力的AI大腦。

不論是在感知、視覺導航，還是交互、生成多樣高質數據上，“悟能”爲機器人行業提供了全面的賦能。

做這件事的人，爲什麼是商湯？

AI刻在DNA，商湯在下一盤大棋

作爲計算機領域的先行者，商湯的入局並非偶然，而是技術基因和戰略眼光的必然延伸。

多年來，這家AI公司在多模態大模型、算力基礎設施，以及產業生態各方面，有着深厚的積累。

在技術佈局的過程中，商湯經歷了從“視覺感知”到“多模態推理”的探索。

2022年，“元蘿蔔”機器人的發佈，初步構建了“視覺-感知-決策”的閉環。

它不僅能識別棋子，還能在遮擋情況下實現精準抓取。這一突破標誌着，商湯向物理世界交互的具身智能邁進。

在大模型掀起的熱潮中，商湯多次迭代了“日日新大模型”，通過原生融合模態訓練，在多模態推理和長思維鏈能力上，取得了頂尖的性能。

而且，日日新早已用在傅利葉、歸墟等公司的機器人“大腦”上。

這一次，徐立又帶着最新的SenseNova V6.5來了。

在多模態推理上，V6.5與Gemini 2.5 Pro不相上下；在交互性能上，多榜單刷新SOTA，並且推理成本狂降到30%。

另一方面，商湯的AI大裝置SenseCore 2.0，能爲其具身智能平臺提供強大的算力支持。

截至2024年底，商湯大裝置運營的“總算力規模”已達23,000PetaFlops。

通過預填充和解碼分離等優化技術，SenseCore能提升GPU利用率和推理效率，降低了模型的部署成本。

這種端雲協同架構，可以支撐從數據生產、模型訓練，到仿真測試的全流程，提供了一站式解決方案。

除了底層能力的積累，商湯在生態方面也在加速佈局。

商湯旗下國香資本，投資了銀河通用、衆擎、鈦虎等多傢俱身智能企業，覆蓋了本體、運控、關鍵模組等全產業鏈環節。

龐大的具身智能“朋友圈”，能讓商湯更瞭解產業痛點，加速技術驗證和迭代，進而反哺和優化模型算法。

在人才儲備上，商湯匯聚了多位頂尖行業學者，比如深度學習與計算機領域的專家林達華、王曉剛等等。

從技術演進，到算力、生態、人才的全面佈局，充分展現了商湯“三位一體”的綜合實力。

具身智能的黃金時代已悄然開啓，商湯“悟能”平臺的發佈恰逢其時。

在這場激烈的競爭中，“悟能”不僅是對商湯技術基因的延伸，更有望成爲撬動具身智能“第二增長曲線”的關鍵支點。

未來，在智能製造、醫療護理、家庭服務等多場景中，具身智能蘊藏着萬億級市場價值。

商湯正以王者之姿，點燃具身智能的引爆點，讓機器人成爲所有人的“超級隊友”。

老虎證券

機器人WAIC現場搶活講PPT？商湯悟能具身智能平臺讓機器人“覺醒”

熱議股票