專訪銀河通用王鶴:真正能“幹活”的機器人,不怕價格戰丨湧現36人

市場資訊
06-25

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

文|王方玉

編輯|蘇建勳

“除了跳跳舞、翻翻跟頭,人形機器人還能幹什麼?”

北京大學助理教授、銀河通用機器人創始人及CTO王鶴可能是最有資格回答朱嘯虎上述“靈魂拷問”的人。由他創立的銀河通用是國內具身智能賽道的獨角獸,也是行業第一梯隊中最專注機器人“腦”的一家。

自2023年5月成立至今,銀河通用只發布過一款機器人本體產品Galbot(G1),卻發佈了多款具身大模型。公司將大部分資源和資金投向了具身大模型研發,致力於提升機器人的通用性和泛化性。

銀河通用創始人王鶴 圖源:企業授權

在王鶴博士看來,人形機器人卷本體的結果是把機器人賣出鋼鐵原材料的價格,目前市場上已經出現了價格戰的苗頭;只有具身智能模型能力的提升,才能賦予人形機器人更高的價值。

通用具身大模型是人類前沿技術的“無人區”,揹負這一宏大命題的王鶴,談起具身模型當下的發展,卻是出人意料的“保守”和務實:

當下,不少國內具身智能模型廠商熱衷於“秀肌肉”:通過“疊衣服、刮鬍子、拉拉鍊”等複雜操作的demo(樣片)來展示其模型的泛化能力;銀河通用則埋頭於攻克“不那麼複雜”的移動、抓取、放置技能,其對具身操作模型的命名一點也“不性感”——抓取基礎大模型GraspVLA。

王鶴對《智能湧現》直言,銀河通用也在研發用衣架掛衣服的技能,但這種複雜操作只是一種科研成果,距離落地和產品化還有很遠距離。

目前具身智能模型最接近場景落地的技能就是相對“簡單”的Mobile,Pick and Place(移動、抓取、放置)。銀河通用正致力於將Mobile,Pick and Place技能在藥店、零售等部分場景率先落地應用。

據介紹,銀河通用聯合合作伙伴推出了全球首個人形機器人智慧零售解決方案,目前已經在北京開了近10家由機器人進行24小時無人值守的藥店,銀河通用的人形機器人不間斷自動精確揀藥,並交付給騎手。

公司計劃今年在北京、上海、深圳等城市共開100家無人值守零售店。目前這一應用場景已經實現了市場化,預計今年將爲銀河通用帶來近億元人民幣的收入。

在前不久的智源大會開幕式現場,銀河通用機器人Galbot在主論壇舞臺進行了現場直播真機演示。機器人在王鶴的語音指令下自主、精確地移動到準確位置並將飲料從貨架取出,實現了複雜貨架抓取與交付的全流程自主執行,全程無遙操,無需場景數據預採集。

銀河通用在智源大會現場展示抓取和交付 圖源:企業授權

王鶴坦言,具身智能進入任何一個場景,都需要進行一些數據上的準備,才能打造百分百成功的產品。Mobile,Pick and Place技能還在持續更新中,銀河通用選擇從零售業的貨架場景做起,逐漸提升操作的泛化性。

在王鶴看來,能把Mobile,Pick and Place這類“簡單”操作的泛化性問題徹底解決,就已經是整個人類具身智能和機器人歷史上的的重要里程碑。據他測算,這一技能的成熟可以打開數千億元的新市場,在零售、前置倉、車廠SPS分揀等多個場景中幫助人類完成繁重勞動。

從泛化性的角度衡量,如果無所不能的人形機器人是100,掌握Mobile,Pick and Place技能的機器人是10,在零售業的貨架場景進行Mobile,Pick and Place的落地僅僅是“1”。

當下的銀河通用,已實現“從0到1”的突破,正向通用具身智能的終極目標邁進。

以下是《智能湧現》和銀河通用創始人及CTO王鶴的對話。內容略經編輯:

迎賓表演市場只是曇花一現,要訓練機器人做高價值工作

《智能湧現》:公司現在員工規模有多大?

王鶴:我們現在百餘人。

《智能湧現》:好像比同一梯隊的同行要少一些。

王鶴:現階段我們還是聚焦產研團隊。銀河通用目前,推出了一款人形機器人產品Galbot G1,圍繞着在工業、零售、服務業等場景的核心需求出發,主打技能是移動、抓取、放置等。

我認爲這個技能可以在工業、商業、服務業等各種廣闊的場景裏,構建一個完整閉環的Skill Set技能集,而不是去做很多發散的小技能,或者是多種多樣的全品類的機器人產品,因爲這樣會導致用人規模大很多。

《智能湧現》:銀河通用只做了一款本體,但發佈了多款模型,是把更多資源傾斜在模型上嗎?

王鶴:其實公司裏做“硬件”的成員反而比做“軟件”的更多,這個可能跟外界的想象不一樣。外界可能認爲銀河通用只做一款產品,所以需要的硬件工程師不多。實際上我們和很多同行的機器人標準不一樣。

如果機器人只用作科研、硬件平臺,以及秀5分鐘的demo,這種呈現形式對於產品的可靠性不要求高。這和一個真正能24小時工作的機器人可靠性差距非常大,因爲它不能落地應用。

銀河通用的硬件圍繞着一款產品進行了多輪次、密集的迭代升級,這樣我們才能真正實現機器人在無人值守藥店場景裏24小時工作。假如硬件出現問題,需要工程師來現場修理,這樣成本會很高。所以我們產品的設計初衷,就按照造車規級、甚至是高於車規級的標準去打造人形機器人產品。

《智能湧現》:從資金投入上呢?

王鶴:作爲一個具身大模型公司,我們投入最大的還是模型的研發。但這塊不是靠堆人,因爲沒有一家公司是靠堆模型訓練的員工來把模型做好。而是要建立整個從數據的基建到模型訓練、測試,一整套閉環的團隊。這裏面算力費用佔比很大。事實上,做模型的一些頂尖的天才級的人物,他們在哪一家公司的人數都不多。

《智能湧現》:重視合成數據是銀河通用很鮮明的一個標籤。不過很多同行也都說自己會用仿真數據,再結合一些互聯網視頻、真機數據等,大家的區別在哪裏?

王鶴:合成數據這個東西,不會的人用不好它,所以有人會說什麼仿真“有毒”等等。銀河通用能取得現在的成績,合成數據在其中扮演了非常重要的角色,基於我們自主研發的合成數據技術,我們的具身大模型的訓練成本得以極大降低。同時我們也強調虛實融合,這讓我們的具身大模型能真正跑在全球的領先地位。這正說明我們真正能用好合成數據。

比如互聯網視頻數據誰都可以下載,比它有一點門檻的是遙操。我們目前在商超、零售環境部署的具身機器人用到了遙操的真實數據,但它的比例遠低於仿真合成數據。

合成數據的方式需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線,包括驗證閉環的一系列全套的基建,需要長期的積累和核心技術know-how。這些積累,也是銀河通用爲什麼能把模型做得更好、而且更泛化的一個關鍵原因。

銀河通用Galbot機器人 圖源:企業授權

《智能湧現》:你們的機器人本體是輪式底盤的,可以理解銀河通用更加註重發展機器人的上肢操作能力嗎?

王鶴:要看是在哪一端側重,在產品端我們以落地的需求作爲指引。

現在客戶絕大多數考慮到企業自身的需求,比如在工廠和商超零售場景做一些移動、抓取、放置工作,都是要求底盤式的。雙足機器人容易產生噪聲,且續航還短。而我們的輪式底盤的機器人6-8個小時才充一次電,相較雙足式有天然優勢。

從研發的角度衡量,銀河通用是全棧佈局整個具身智能,針對雙足人形機器人也有佈局,但現階段它並不是產品端真正可以廣泛應用的產品。

《智能湧現》:迎賓、表演是今年新興起來的場景,同行們都在大力進軍,銀河通用爲什麼沒搶佔這個場景?

王鶴:我的看法是,現在這些炫酷的場景是曇花一現。市場最終不是靠一波流量來取勝的,真正能夠留存下來靠的是好的用戶體驗。

銀河通用始終重視用戶體驗。比如大堂的迎賓機器人有很多,但主要是做了一些不痛不癢的工作。我們在做的是次時代的接待機器人產品,要讓客戶願意用,可以真正協助人來工作。只要能做到這一點,我相信廣闊的市場可以任你遨遊。

所以我們並不是說不做,而是已經在佈局,目前處於由很多點的技術形成線,正在線形成面的一個過程中。

“移動、抓取、放置”的市場空間很大,但技術還未完全成熟

《智能湧現》:投資方給我們商業化的壓力大嗎?

王鶴:投資人給了我們很大的支持,這些支持不僅在財務投資上,也有戰略協同資源上。目前,我們已經有紮實的落地成果,公司今年應該能有可觀的收入規模。

《智能湧現》:教育和科研市場呢,你們有沒有佈局?

王鶴:我覺得還是大家對於優先級的認知不一樣。教育市場到底是一個多profitable的市場?它的天花板是多少臺?實際上,已有充分多的雙足企業加入了對教育市場的角逐。銀河通用會聚焦於自己有優勢的領域,從需求的角度出發,讓機器人真正滿足目前市場中存在的痛點。

銀河通用關注的不是把人形機器人本體當做鋼鐵原材料一樣的賣,因爲人形機器人卷下去的後果是,大家以後都趨向於按材料成本定價。我們期望的是人形機器人能發揮有價值的工作,讓具身智能真正創造智能化的價值。

《智能湧現》:您看到現在市場上有這種價格戰的趨勢嗎?

王鶴:是的,現在是在瘋狂降價。現在降到了小几萬,未來可能有人報價更低。我們其實是樂見整個行業通過快速的硬件迭代,讓硬件成本快速下降的。供應鏈的降本對於銀河通用也有利。

問題在於這個售價的機器人到底能解決什麼問題。我們現在專注做的是高價值的事情,我們一臺機器人售價是大幾十萬元,客戶仍然很願意用,因爲這顯著緩解了三班倒員工的用人成本壓力。這也是我們(預期)能夠實現億級收入的原因。

《智能湧現》:你賣幾十萬,爲什麼客戶還能接受?

王鶴:我上面也提到過,別家賣便宜的人形機器人,用戶對它的心理預期和我們做場景落地的機器人的心理預期是不一樣的。我們的產品成熟度和可靠性的要求是不一樣的。

銀河通用的機器人可以連續工作一個月不出一次差錯,這是我們核心競爭力優勢。我把我們的機器人叫“場景落地機器人”,市面上用於科研和商場表演的那種,叫做“研發平臺型機器人”。

《智能湧現》:你們主打的技能就是圍繞着移動、抓取、放置,但也有觀點認爲這類“PPT操作”(即Pick抓取、Place放置和Transfer轉運)可以解決的實際問題、適應的應用場景非常有限。

王鶴:首先我不認可“PPT操作”的說法。我更傾向於用“Mobile,Pick and Place”,這也是國際上大家認知裏更通用的表達。

現在在零售、倉儲、車廠SPS分揀等場景中,我們看到的是大量的員工在做“移動、抓取、放置”的工作。如果有人認爲這個市場可以開發的空間不大,那可能是因爲他們沒有真正瞭解市場需求。我看到的是一個數十萬臺的潛在市場,比現在全球工業機器人的總產值還要高。

《智能湧現》:這類“移動、抓取、放置”的機器人爲什麼還沒有廣泛落地應用起來?

王鶴:“Mobile,Pick and Place”技能還遠未成熟,即使是技術比較領先的谷歌Deepmind的RT機器人也做不到落地。像銀河通用在智源大會現場展示的智慧零售,讓機器人負責取貨、送貨、上架,目前我沒見其他廠商可以復現,特別是勇於在現場直播演示。

《智能湧現》:很多廠商會炫一些機器人拉拉鍊、刮鬍子和疊衣服等更復雜的操作,他們投資方也將此視爲比較高的技術成果。

王鶴:現在很多廠商在把不能落地的、不能產品化的一些科研亮點,說成是他們的產品。我們需要思考,疊衣服機器人到底什麼時候產品化?現階段它能達到效率要求、平整度要求和泛化性要求嗎?

因爲有這個科研成果,所以機器人產品就更好賣,這個邏輯是不成立的。實際上,大量的科研成果在過去這麼長的時間裏一直有出現,但可規模化生產的產品卻一直沒有落地。

我們其實也在研發新的技能,也會用衣架掛衣服。銀河通用的合成數據背後有上百萬件的衣服的虛擬資產。但實話實說,疊衣服要做到實用、可落地的程度,誰都還沒有做到。

《智能湧現》:銀河通用對外披露的落地場景,主要在藥店、工廠和零售場景,這些場景哪些是市場化的,哪些還處於POC(Proof of Concept,概念驗證)階段?

王鶴:藥店和零售場景已經是完全市場化了,我們的收入很大一部分來自這塊。

工廠場景驗證還處於POC階段,因爲工廠場景有些工作對於節拍、準確度和可靠性要求是很高的。特別是在高精尖製造當中,像新能源車的生產線,停工哪怕一分鐘,都會帶來巨大的損失。包括特斯拉和Figure AI,大家都處在POC階段,都在打磨產品,讓它最終可以整合到新開的產線當中。

銀河通用率先在全球交付了很多行業標杆性POC項目,比如某國際知名車企場景裏的SPS分揀POC、奔馳的搬物料箱子和天窗轉運的POC、極氪的搬運POC。銀河通用的進展是相當快的。但這個場景真正轉化進入產線還需要一定時間。

《智能湧現》:這些車企不是你們的投資方。

王鶴:對,剛剛提到的幾家車企合作方都不是我們的投資方,汽車廠商本身有很強的自動化的需求,所以和我們建立了戰略性的合作關係。

具身智能行業相對“混亂”,真正願意做實事的人少

《智能湧現》:你們發佈過多個模型,除了具身抓取基礎大模型GraspVLA,其他模型有商業化嗎,比如剛發佈的產品級端到端導航大模型TrackVLA。

王鶴:TrackVLA我們會把它往C端的產品去打造。它能夠在場景裏跟人有很好的互動,包括做一些從工業巡檢到商超的跟隨搬運等等能力。我們現在也在跟合作方宇樹科技,包括跟場景方一起去推動TrackVLA模型的應用。

我們的模型也可以跨不同的機器狗泛化。導航能力相較於操作能力更易於泛化到不同的本體上。

《智能湧現》:星塵智能和智元機器人都和Physical Intelligence(PI)合作了,用上頭部的模型是不是可以更快商業化?

王鶴:我不瞭解他們和PI合作的具體細節。我瞭解到PI在廣泛的地收集各個廠家的真機數據。從數據的角度,我不認同PI的做法。跨本體的、大量的、不同的機器人數據,對於機器人的訓練來說是一個低質數據。

《智能湧現》:現在全球第一梯隊的具身智能模型能力,如果類比AI大模型,處於哪個階段?

王鶴:這很難去類比,具身智能模型涉及的維度更高。

例如在自動駕駛領域,大家會講L1-L5,自動駕駛是圍繞着開車這一件事,而具身智能涵蓋了非常多的事,你可以做好“Mobile,Pick and Place”,但不一定能抱小孩、扶老人起牀。

在具身智能的每一款產品上都有L1到L5的不同層級。我們的期望是,具身智能產品能夠被稱作產品時,至少應該達到L4的水平,即具備自主性,而非僅僅是輔助。

相較於大型語言模型,我認爲通用具身智能的實現是一個長期的技術進步的過程,而非短暫的智能爆發。

《智能湧現》:所以具身智能模型的“ChatGPT時刻”還有較遠的距離。

王鶴:是的。ChatGPT展現了通用問答的能力,而具身智能模型想要什麼活兒都能做,從硬件和傳感器到數據採集還有很多事情要做,還有很多不成熟的地方,它可能需要五年到十年的時間。

我們人類幹活的時候,實際上除了視覺、語言、動作(即Vision-Language-Action),還有聽覺、嗅覺、味覺、觸覺以及對溫度的感知,在不同的任務中都有去不同程度的使用。所以VLA模型只是一個起點,如果想達到人類級別的具身智能,那還需要不斷融入新模態。

那VLA現在能幹什麼呢?我覺得是把“Mobile,Pick and Place”先做得非常泛化,在一個可批量複製的場景裏做好,比如所有零售店、所有工廠的分揀線。如果這個能達到,這會是整個人類具身智能和機器人歷史上的的一個里程碑。它的意義不亞於我們今天機器人實現了“黑燈工廠”。

《智能湧現》:業內同行都在往這個里程碑的方向走嗎?還是在追求一些別的技術突破。

王鶴:我覺得行業裏真正願意做實事的人少,願意賣硬件、賣平臺的人多。把東西賣給用戶後,用戶怎麼用它不需要對功能負責了,這種廠商多。真正願意去做模型的廠商裏,做學術研究的人多,真正做能落地的模型產品的人少。這兩個“少”都導致了具身智能行業相對“混亂”的局面。

《智能湧現》:“Mobile,Pick and Place”要在服務業,諸如藥店、便利店落地,還有哪些待改進的地方嗎?

王鶴:具身智能進入任何一個場景,都需要進行一些數據上的準備。不管是合成數據,還是真機數據的小規模採集,甚至不排除做場景中的強化學習,才能打造成一個百分百成功的產品。

我們目前追求的並不是所有的“Mobile,Pick and Place”都做,而是先圍繞着貨架,甚至是超市的貨架,先保證它很好的泛化,最後纔是我們日常環境中各種地方放的東西。所以這條路沒有大家想得那麼簡單。

《智能湧現》:在“Mobile,Pick and Place”之外,銀河通用的下一個Milestone會是什麼操作,做了哪些技術的儲備?

王鶴:銀河通用有數位業界頂尖學者,大家在一起推動科研創新的進程。從研究上講,我們會不斷地推進新的技能,包括足式機器人,靈巧手的研究——這也是我獲過多次Best Paper的殊榮,更加終極的末端、本體上面的技能的學習。

對於研發,我們的戰略就是引領,並且永遠保證在一線。銀河通用的使命是讓通用機器人服務千行百業,千家萬戶。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10