北京人形機器人創新中心唐劍:在具身智能產業化落地中,大小腦泛化能力成核心卡點

睿見Economy
11/18

專題:2025中國高新技術論壇

  由深圳市人民政府主辦的第二十七屆高交會於2025年11月14日-16日在深圳舉行。作為高交會的重要論壇「中國高新技術論壇」於11月14日舉辦,論壇主題為:人工智能賦能未來產業發展」。談及具身智能行業,北京人形機器人創新中心有限公司CTO唐劍表示,要實現真正通用的具身智能,有幾個必要條件需要滿足:一是要實現多本體、多任務協同工作的能力;二是自主學習的能力;三是跨本體的泛化操作能力;四是全自主導航能力;五是全鏈路數據採集與管理能力。

  在他看來,人形機器人或者具身智能產業化落地的瓶頸,主要分兩類:線性和非線性的,最核心的卡點是大小腦場景任務上的泛化能力有待提升,這就是為什麼目前還沒有非常大規模特別是在商業和生活場景的人形機器人落地。「非線性,假以時日可能有突破,可能很快也可能很長時間。另外一些我稱之為線性瓶頸,包括自主穩定的移動、可靠性、穩定性、負載能力、工作效率以及國產邊緣芯片能力、ROS系統的效率等等,假以時日一定會有非常大的提升。」

  以下為演講實錄:

  唐劍:感謝主持人,感謝主辦方的邀請,今天非常榮幸代表北京人形機器人創新中心和大家分享一下我們在通用人工智能上的一些探索和思考。每次講到具身智能,不得不提的是上世紀80年代非常著名的莫拉維克悖論,機器人和人是反着的。歸根結底,具身智能的算法或者模型泛化能力不夠,機器人在上世紀50年代就出現了,但至今機器人行業最大的痛點瓶頸就是機器人的泛化能力不夠,或者現在的機器人基本上是在指定場景下的一個或者若干個任務,要用一款專門的機器人寫一個專門的程序。我們做人形機器人和具身智能,希望解決的問題就是用一款類人形或者人形機器人,讓它在任意場景完成任意任務。我相信這是具身智能行業所有同仁在努力的目標。

  在座各位都熟悉天工機器人,目前已經實現量產並且銷售的是天工2.0雙足機器人,身高和體重都和成年男子相似,總共42個自由度。

  天軼2.0,主要是在工業或者泛工業場景,輪臂式機器人相對比較穩定。

  我們創新中心對具身智能行業的思考,要實現真正通用的具身智能,有幾個必要條件需要滿足:一是要實現多本體、多任務協同工作的能力;二是自主學習的能力。這跟人一樣,從出生或者學校畢業,即便是博士畢業,還是有很多工作你不知道該怎麼做,所以機器人必須有自主學習的能力,因為它永遠有一些任務不知道該怎麼完成;三是跨本體的泛化操作能力;四是全自主導航能力;五是全鏈路數據採集與管理能力,前面幾位嘉賓分享也提到對於具身智能行業而言數據相當於石油或者燃料。

  今年3月份我們正式發佈了軟件平臺慧思開物,是一站式通用具身智能開發平臺。一站式,提供具身智能應用開發者或者機器人應用開發者所需要的所有組件;開發平臺,平臺面向的用戶主要是二次開發者。

  我們平臺要實現的設計目標是一腦多能、一腦多機。一腦多能,基於這個平臺可以開發任意機器人的應用;一腦多機,我們會適配市面上主流的機器人,目前已經適配了九款機器人。平臺現在採用最主流的具身智能技術路徑大腦+小腦。大腦是Agent,後面會拖着一個多模態大模型VLM,大腦要實現的功能是告訴機器人每一件事情該怎麼做,How to do it。大腦功能包括空間感知、意圖理解,最重要的是任務規劃,把多個任務拆分成子任務並且給小腦去執行,小腦要做的是do it。小腦由兩個子平臺組成:一個是具身操作子平臺,核心的是元技能庫,每一個技能就是一個動詞,比如打開、關閉、拿起、放下,這都是一些技能。現在因為模型能力還不太夠,有時候也可以把一個任務(比如開門,Open本來應該是一個元技能,但因為模型泛化不夠,我也可以把「Open Door」作為元技能。一個VLA也可以實現多種技能,這也有可能。另外是運控子平臺,基本的站、走、跑的能力。

  利用慧思開物,8月份世界機器人大會我們做了一個多本體多任務協同工作的Demo,在這個Demo裏首先有一個雲端大腦,這個大腦是Brain Agent,負責任務的規劃和空間的理解。小腦也是一個Agent,這裏面用了四款機器人完成不同的操作,像電工大師做配電櫃的操作,天工機器人搬箱子,另外兩個機器人完成質檢和打包任務,完成多本體、多任務的協同工作。慧思開物平臺是分佈式的具身智能,多智能體系統。

  下面介紹一下我們如何實現自主學習。

  自主學習要用到兩個比較大的模型,這是很多具身智能企業主要發力的方向,就是大腦模型。大腦我們使用的是VLM的模型,但要用世界模型輔助幫助大腦完成自主探索和自主規劃、自主學習。

  具體怎麼做?我們的技術路徑,我們有一篇文章發表在今年最新的AI頂會上,我們用蒙特卡洛樹搜索算法,把所有可能完成這項任務的路徑枚舉出來。這在AIphaGo裏也廣泛應用,比如加熱麪包有不同的方法,可以用微波爐,也可以用烤箱,用世界模型模擬每一個方案。同時還有一個獎勵的大模型,也是多模態大模型,對每一種方案進行打分,並且把打分的數據以及模擬數據同時用GRPO強化學習方法微調VLM大腦模型,從而實現大腦模型自主探索各種任務的執行、任務的規劃。

  這個已經在世界機器人發佈,上個月做的一次開源的直播,詳細的在技術上解讀多模態大模型,中文名字叫天鶘(Pelican),跟具身智能相關的大模型和多模態大模型做了對比,基本上能超過SOTA的水平,大概11個點左右。

  大腦模型主要的能力:一是空間理解,理解這個空間都有什麼東西,更重要的是他們相互的位置關係如何;二是任務規劃,把一個長程複雜任務拆解成多個子任務分發給小腦執行;三是狀態預測,核心作用是判斷任務是否成功執行,比如抓一個杯子沒有抓住,通過傳感器立即就知道了,但有些任務可能小腦以為已經完成了,但實際上沒有完成整個任務,這需要大腦的大模型做判斷。大小腦的協同非常重要。如果只通過小腦可能很難完成,這個例子是有一個盒子,裏面已經有五包紙巾,要把第六包紙巾放進去,如果只是小腦讓它放,可能就放不進去,需要大腦理解整個場景,並且標出這個紙巾應該放入的位置,小腦執行纔能有一個參考,才能完成相對比較複雜的任務。

  我們發佈並且開源了第一版具身世界模型WoW,衆多媒體做了報道。這裏面主要的創新是之前的視頻生成膜型或者世界模型都是開環結構。基於輸入生成一個視頻就完事了。世界模型特別是具身智能相關的世界模型,最核心最重要最關鍵的是一定要嚴格遵循物理規律,並且有很強的時空一致性,否則對機器人的訓練沒有特別大的作用。為了提升它對物理規律的遵循,實現雙模閉環訓練模式,每次這個世界模型生成的視頻,我們會讓VLA大模型看是否遵循了物理規律,如果沒有遵循,會調整它的參數讓它繼續重新生成一個視頻,直到能比較好的遵循為止,不斷提升生成質量。同時我們提了一個Benchmark裏有一系列指標對具身世界模型做技術評測,我們在GitHub上有主頁,這個模型已經完全開源出來了。

  這有點像Specific Model,生成的視頻基本上是機器人第一人稱主視角的視頻,而且基本上跟機器人的任務和操作相關,我們也跟SOTA模型做了對比,在這些Benchmark上可以完全超過SOTA的水平,在視頻的泛化上跟SOTA模型比也有比較大的提升。

  8月份的世界機器人大會上我們發佈了跨本體泛化操作的VLA模型XR-1,稍候我們會將XR-1以及馬上要開源的Robo mind2.0同時做一次直播,詳細解讀VLA模型,它有比較強大的泛化能力,我們用預訓練模型做後訓練,後訓練時各個模型都用一模一樣的數據,在很多任務上都可以超越SOTA的水平。

  上個月底,我們把慧思開物平臺現有的大部分能力也打包起來以SDK形式開放出來,大家掃二維碼就可以到慧思開物主頁下載,全部免費的。10月底開放的版本里包含具身多智能體的體系架構代碼,二開用戶不用從頭構建Agent的系統。還有我們已經具備的能力,比如長短記憶能力、語音交互、運動會,比如運動會上我們參加相關箱子搬運、抓取的Demo都包含在SDK裏。目前我們主要開放給天工、天軼用戶快速構建機器人的應用。在後續三四個月我們會陸續開放Pelican模型,比如天工導航能力、開關門能力等。

  這是我們參加2025年機器人運動會三個項目,也是三個不同的場景和任務,當時用了一款機器人,也是用了一種算法或者一個Model,在物料整理上是冠亞軍,物料搬運上我們拿了亞軍,跟我們PK的是非常典型的工業機器人,用很粗的工業協作臂,底下用AGV底盤,一手拿兩個箱子,我們比它慢了大概十幾秒。通過比賽,用人形或者類人形機器人,通用人工智能算法,有可能把很多場景做得很好,雖然現在可能在效率上跟專用機器人還有一定差距,但未來可期,用通用人形機器人以及通用具身智能算法有可能在很多工作上  能做到SOTA的水平。我們在行業內比較早的實現了全自主導航,人形機器人全自主導航所處環境更復雜,涉及到的物品種類以及嚴重的堆疊。自動駕駛主要是行人和車輛,物品顆粒度可能更小,更具挑戰的是控制而不是感知,因為車有四個輪子,但人形機器人有三十個左右的關節,需要讓這三十個左右的關節協同運動follow你規劃出的路徑,有時候要高速移動,這比較有挑戰性。

  這是我們在世界人工智能大會上做的展示(見PPT)。

  我們在運動會上是唯一一個在田徑賽場上實現自主奔跑的,幾乎沒有一次踩線,100米賽上拿了冠軍,其他幾個項目拿了亞軍。

  我們創新中心在離公司不遠的地方建了一個數據基地,有各種構型機器人各種不同場景日夜不停的採集數據,希望賦能整個行業。同時,我們打造了自己的數據平臺,能完成自動的數據清洗、標註、治理等工作,也參與了一系列跟數據相關的標準,有的是牽頭,有的是參與。

  這是去年發佈的RoboMIND 數據集,下載量接近10萬。這個月我們要再開源27萬條甚至更多真機實採的軌跡數據,敬請關注。

  這是相關的鉸鏈物品仿真數據資產,這個可以直接導入來使用,也是完全開源的。

  我們認為在人形機器人或者具身智能產業化落地的瓶頸,主要分兩類,線性和非線性的,最核心的卡點是大小腦場景任務上的泛化能力有待提升,這就是為什麼目前大家還沒有看到非常大規模特別是在商業和生活場景大規模的人形機器人的落地。非線性,假以時日可能有突破,可能很快也可能很長時間。另外一些我稱之為線性瓶頸,包括自主穩定的移動、可靠性、穩定性、負載能力、工作效率以及國產邊緣芯片能力、ROS系統的效率等等,假以時日一定會有非常大的提升。

  產業化發展趨勢,這算是行業的一種共識,人形機器人產業化落地基本上要經歷三個階段,不是完成第一階段再做第二階段,第一階段是在結構化或者半結構化的工業/泛工業落地。第二階段是落地在商業場景,目前在導覽導購上有實實在在的訂單。第三階段,落地在生活/家庭等需要強大泛化和交互能力的場景,比如生活場景做保姆、管家,這也是衆多機器人廠商覺得天花板級難度的工作,大家也都在往這個方向努力。

  上個世紀80年代隨着通用個人電腦的出現,全部或者部分替代了之前一些專用的計算設備,比如像計算器、遊戲機、文字處理機,本世紀第一個10年隨着像iPhone的出現,把通用的智能手機設備全部或者部分替代了,我們也堅信通用人形機器人並且搭載算法的人形機器人未來能全部或者部分把一些專用機器人替代掉。我們創新中心也將全力以赴,希望和行業的各位同仁一道共同努力推動人形機器人具身智能走入千家萬戶,謝謝大家! 

  新浪聲明:所有會議實錄均為現場速記整理,未經演講者審閱,新浪網登載此文出於傳遞更多信息之目的,並不意味着讚同其觀點或證實其描述。

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:李昂

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10