炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
早早就沒了位置,人牆圍了一層又一層,宇樹機器人、天工機器人一登場,就調動了全場氣氛。
6月6日,由北京智源人工智能研究院主辦的「AI春晚」——第七屆北京智源大會(以下簡稱智源大會)正式開幕。
大模型熱潮進入第三年,智源大會的關鍵詞已經從「大語言模型」躍升為「具身智能」與「機器人2.0」。
作為產業風向標,在智源大會上,OpenAI創始人山姆·奧特曼以及「深度學習之父」辛頓曾發表演講;月之暗面創始人楊植麟曾經歷人牆圍堵,熱度遠超如今首個衝向IPO的智譜AI;而今,大會上的「明星」是宇樹科技創始人、CEO(首席執行官)王興興。
變化的背後,AI(人工智能)正加速邁入「幹實事」的新階段:從機器人表演走向實際應用,從模型訓練走向產業閉環。物理世界的複雜性、數據採集的現實需求、人與機器的自然交互,正在共同推動具身智能成為AI發展的下一個技術高地。
具身智能會客廳對話現場 主辦者供圖「AI春晚」,主角又換了
結束開幕式上的「智源具身智能會客廳」圓桌對話後,宇樹科技CEO王興興在現場安保引導下離場,想要上前與其交流的觀衆被隔絕在人牆外。
這或許是吸取了去年的「教訓」,彼時的明星公司是月之暗面,楊植麟在下場後幾度被人牆圍住無法脫身。
如果以2022年末ChatGPT的發布作為節點,三屆智源大會,不僅見證了大模型時代AI技術的跨越式發展,也折射出人工智能產業關注重心的變動軌跡。
2023年,AI領域風頭無兩的是OpenAI所引領的生成式大語言模型熱潮,當年大會的高光時刻是OpenAI的代表人物山姆·奧特曼(Sam Altman)與「深度學習之父」辛頓(Geoffrey Hinton)的亮相。
2024年,以月之暗面、百度、智譜AI為代表的國產大模型廠商迅速崛起,在語言模型與多模態模型領域競逐成「主角」,開發出Kimi的月之暗面備受追捧。
2025年,具身智能集中搶鏡,機器人、跨模態系統、物理智能等成為主論壇的重要議題。變化背後,是技術路線的演進和應用價值的再認識。
面壁智能CEO兼聯合創始人李大海在接受《每日經濟新聞》記者採訪時表示,技術的發展是非線性的。大模型本質上是一項基礎性技術,未來一定是非常重要的底層基礎設施。隨着這項技術逐步成熟,產業關注的重心自然也開始從底層模型向其之上的具體應用轉移,這種關注點的遷移是合理且必然的。
同時,李大海認為,大模型「奇點」正在到來,其身處其中有非常強烈的感受,當前大模型在訓練過程中,已經能夠利用自身的特性,反哺訓練過程,實現大模型訓練的加速,形成「用大模型訓練大模型」的良性循環。「整個技術的發展在加速,(所以)纔有外面能看到的整個行業的變化越來越大(的情況)。」
「人工智能正加速從數字世界走向物理世界,這是我們對整個大的技術發展趨勢的判斷。」智源研究院院長王仲遠受訪時表示。
從「秀肌肉」到「幹實事」
在2024年的智源大會開幕式上,月之暗面、百川智能、智譜AI與面壁智能四家國產大模型公司曾罕見同台,展開通往通用人工智能(AGI)之路的對話。而2025年,圓桌環節的對話主角,從大模型轉向了具身智能。
開年以來,具身智能成為人工智能領域最熱的關鍵詞,伴隨而來的,是形態各異的機器人頻繁亮相各種公衆賽事:從春節晚會上的舞蹈表演,到格鬥競技場上的人形對抗賽;從物流分揀的真實場景模擬,到即將在北京舉辦的「世界人形機器人運動會」。
眼下風靡的機器人比賽,是驗證技術的試驗場,還是秀肌肉的「秀場」?
對此,王興興認為,當前機器人賽事的價值在於讓大衆「看到機器人已經發展到什麼階段了」。他坦言,儘管人形機器人還不能「真正進入家庭幹活」,但通過格鬥、跳舞等全身動作訓練,一方面可以展示當前AI控制系統的水平,另一方面,跳舞和格鬥,其實是機器人全身動作的一部分。「我們的目標一直是希望通過AI技術讓機器人能做各種全身動作,來實現終極目標,去真正解放人類生產力。」
王興興進一步解釋道,這種展示不僅有助於訓練和驗證模型能力,也開始體現出一定的商業價值。今年上半年,人形機器人租賃市場就比較火爆,王興興認為,這也是一種產業價值的體現。
北京人形機器人創新中心總經理熊友軍也表示,接下來的「世界人形機器人運動會」,不僅包括格鬥等競技類項目,還將引入短跑、接力、足球、舞蹈等來自人類場景的形式。同時,賽事中還包含多個真實生活和工業場景,如工廠的物流搬運、醫院的醫藥分揀、酒店的服務應用等。
熊友軍表示,這些比賽場景來自具體的企業提出的真實場景需求,和機器人即將走入現實的生活密切相關。「這是一個很好的訓練場,對提升機器的技術有很大幫助,也是潛在客戶了解和跟機器人企業溝通的橋樑。」
儘管表演與賽事火熱,但具身智能產業化真正的關鍵仍是「幹活」能力的打造。對此,銀河通用創始人王鶴指出,當前行業已經有許多炫酷技能,但需要反思的是,如果在真實環境下無法保證成功率,這些技能的產業價值就非常有限。
王鶴介紹,銀河通用與智源研究院的聯合團隊正在重點攻關「通用移動抓取」任務,即通過導航與抓取組合,讓機器人在貨架等實際工作場景中完成複雜動作。王鶴透露,銀河通用的機器人已經在北京值守7家24小時無人藥店,由人形機器人完成取藥和對接騎手的任務。他進一步強調,希望賽事和應用場景能進一步打通,用賽事去引領有價值的、可落地的技能。
人形機器人現場展示格鬥 主辦方供圖人形還是非人形?
在AI模型「上天入地」的浪潮中,被稱為「AI+機器人」終極形態的具身智能,正成為產業界和學術界同時瞄準的下一個技術制高點。
「其實我一直不堅持一定要做(成)人形(機器人)。」在談到人形機器人是否是具身智能唯一形態時,王興興表示,從工程實踐角度出發,宇樹科技早期做機器狗,轉向人形機器人屬於「順理成章」。在一些場景中,用輪式底盤替代腿部同樣非常實用。
「但為什麼大家現在喜歡用人形,尤其上半身保留人的樣子?核心是因為現在AI大部分還是依賴人來做數據採集。」王興興解釋說,人形機器人上半身動作和人類一致,可以讓AI採集數據、訓練模型都更加方便,「包括我們機器人跳舞或者做一些格鬥和別的比賽,說實在的,如果你做成別的樣子就沒辦法做這個事情」。
不過王興興也明確指出,未來隨着AGI的誕生,機器人的形態將會「千奇百怪」,比現在要多非常多倍,甚至多100倍都有可能。但在當前階段,人形形態仍在數據採集、模型訓練和落地效率上具備「實用主義」的優勢。
與王興興偏向技術現實主義的觀點不同,熊友軍更看重人形在未來市場中的地位。他認為,雖然從技術上講,具身智能載體可以多種多樣,但「人形機器人是具身智能發展、研究的最佳載體」。他指出,未來具身智能的最大應用場景不是工業,而是家庭和商用服務,「今天工廠場景只是‘開胃小菜’」。
熊友軍認為,人形機器人更容易被人接受。它們會成為生活中的夥伴、朋友,甚至像現在很多年輕人所說的——可能是愛人。這種人機交互的自然程度是其他形態難以比擬的。他還補充道,人形機器人適配人類環境的成本更低,如果不是人形,就可能需要為機器人改造環境。這在實際部署中會帶來額外成本。熊友軍表示,長期來看,人形仍是具身智能最具發展潛力的形態。
展區機器狗 主辦方供圖在形態問題的背後,具身智能的「智能」來源何處,是另一個爭議核心。自動駕駛中,VLA(視覺語言動作模型)已成為主流解決方案,但面對具身智能中複雜度更高的任務環境,VLA能否「泛化」仍待驗證。
王鶴認為,自動駕駛的經驗已初步證明了「端到端」方案有更好的擴展性,不依賴無窮無盡的規則,而是通過數據去驅動模型。他表示,VLA的意義在於,通過視覺觀測和自然語言指令,直接輸出動作決策,中間不再需要其他環節。這種路徑可以讓模型更充分地吸收數據背後的知識,發揮出最大的性能,而不受制於模塊化方案。
不過,王鶴也直言,目前VLA是具身智能研究的熱點,只是針對VLA究竟要突破什麼,行業同樣有不同觀點。比如,有人希望把人類能做的所有事情都整合到VLA中,形成一個基座模型。王鶴認為這太着急了。他指出,人類認知不是只有視覺和語言,還包括力覺、觸覺、嗅覺、味覺、溫覺、聽覺⋯⋯「所以VLA只能是一個起點,要想真正做到人類級別的具身智能,只能不斷融合新的模態。」
王鶴認為,目前VLA最適合的任務是移動、抓取和放置。這些以視覺為主,加上末端的觸覺或力覺傳感器即可執行,這類任務在工業和服務場景中已經足夠廣泛,如果能先將這類VLA模型做紮實,「將會是具身智能真正第一次高潮的到來」。
穹徹智能聯合創始⼈、上海交通⼤學教授、上海創智學院副院⻓盧策吾則補充,VLA模型「確實集合了機器人幾件要乾的事」——Vision(視覺)理解世界,Language(語言)與人類溝通,Action(動作)改變世界。但他也指出VLA當前存在很大的限制。具身智能面對的物理世界比無人駕駛複雜得多,無人車只需在兩個維度做決策,且場景相對固定,而通用具身智能的場景是開放且有接觸的,空間更大、不確定性更多。因此,要做到通用,就要壓縮它的「不確定性」,並不停地在兼容框架中增加更多額外信息,在端到端的模型裏壓縮它的空間。
此外,他強調對物理世界理解能力的增強也是「壓縮任務空間」的關鍵。穹徹團隊在其第二代「機器人大腦」中,加入了「數字基因」「仿真數據資產」等模塊,希望通過仿真產生大量數據,減少真實世界中訓練對樣本量的依賴。盧策吾認為,找到更聰明的方式理解世界,把它們融合到VLA裏,纔可能真正推動通用智能的拐點出現。
從人形機器人的路徑分歧,到VLA模型的能力邊界,在具身智能這條路上,數據仍是燃料,形態仍有博弈。但最終,理解世界並與之交互的能力,或許纔是決定智能生命形態的關鍵點。