小米又憋了個大的。
昨天,雷軍親自在微博放出重磅消息,小米機器人團隊正式發布並開源全新具身智能VLA模型 ——Xiaomi-Robotics-0,真機運行畫面首次對外曝光。
這不是一次普通的技術更新,而是小米在機器人領域的一次關鍵破局。47億參數規模、兼具視覺語言理解與高性能實時執行能力,在三大主流仿真測試中橫掃行業標杆,拿下全項SOTA(State-of-the-Art,即當前公開可驗證的最先進、最高水平),更在真實機器人上實現流暢動作。
而最具顛覆性的是,它能在普通消費級顯卡上實現實時推理,直接打破了高端機器人模型 「只能實驗室跑、普通人用不起」 的魔咒,這也是其區別於同類產品的核心亮點之一。
很多人好奇,現在的機器人模型,到底卡在哪了?
行業裏藏着兩個多年未解決的核心痛點:
第一,推理延遲高、動作不連貫:傳統 VLA(Vision-Language-Action,視覺 - 語言 - 動作)模型雖然參數規模可圈可點、泛化能力較強,但在真實物理世界中,龐大的推理延遲讓機器人像 「延遲卡頓的木偶」,動作斷斷續續,根本沒法像人一樣自然操作,被網友調侃為 「反應遲鈍的木頭人」;
第二,硬件門檻極高:稍微具備高性能的模型,必須依賴昂貴的專業顯卡才能正常運行,普通開發者、小團隊根本碰不起,導致先進技術只能被鎖在實驗室,無法落地普及。
在此基礎上,還有一個普遍難題。不少模型 「仿真測試成績好看,一上真機就拉胯」,無法在現實世界裏穩定完成疊毛巾、拆積木這類真實物理任務,形成理論與實操脫節的尷尬。而小米這次的 Xiaomi-Robotics-0,就是衝着解決這些行業頑疾來的。
官方明確表態:「今天,我們對外發布:Xiaomi-Robotics-0。這是一個擁有 47 億參數、兼具視覺語言理解與高性能實時執行能力的開源 VLA 模型。它不僅在三大主流的仿真測試中獲得優異成績,更在現實真機任務中實現了物理智能的泛化 —— 動作連貫、反應靈敏,且能在消費級顯卡上實現實時推理」。
這句話精準概括了模型的核心優勢,尤其要強調,不用高端計算設備,不用斥巨資購買專業顯卡,普通消費級顯卡就能讓它穩定跑起來,這也是小米此次最具突破性的成果之一,直接拉低了具身智能技術的落地門檻。
能做到這一點,核心是小米自研的Mixture-of-Transformers(MoT)混合架構,通俗說就是給機器人裝了 「雙腦協同系統」,兼顧決策與執行效率。
一個是視覺語言大腦(VLM),負責聽懂人話、看懂環境,哪怕是 「把毛巾疊好」 這種模糊指令,也能精準理解空間關係和任務目標,保留了VLM本身的多模態理解能力,這是此前很多VLA 模型所不具備的優勢;
另一個是動作執行小腦(DiT),專門負責把指令變成絲滑動作,生成連續流暢的 「動作塊」,再通過流匹配技術保證精準穩定,讓機器人告別機械卡頓,動作接近人類的靈活度,從根源上解決了傳統模型動作斷層的痛點。
為了讓機器人既聰明又能幹」,團隊還設計了兩階段訓練方案。
先通過跨模態預訓練,讓模型在學動作的同時,不丟失物體識別、視覺問答等基礎能力,避免 「練了手工、廢了腦子」,同時通過 Action Proposal 機制讓VLM的特徵空間與動作空間對齊,為後續實操打下基礎。
再通過後訓練優化,用異步推理模式從機制上解決真機 「動作斷層」 問題,搭配 Clean Action Prefix 讓動作軌跡連續不抖動,通過 Λ-shape Attention Mask 讓機器人聚焦當前視覺反饋、擺脫歷史慣性,哪怕環境有小變化,也能即時調整,大幅提升環境適配能力。
分揀不同顏色的積木
將大塊積木逐步拆成小塊
將毛巾攤平-疊好
主動將多餘毛巾放回以進行疊放
從這次曝光的真機視頻裏就能直觀感受到,處理毛巾這種軟塌塌的柔性物體,它會先鋪平、再對摺、整理整齊,多餘的毛巾還會主動放回原位。
面對剛性積木,它能一步步穩妥拆解,手眼協調極其穩定,不會出現卡頓或失誤。不管是軟質材料還是硬質物件,都能從容完成,這就是物理智能真正落地的直觀表現,也是小米此次突破的核心價值所在。
在 Libero、Calvin、SimplerEnv 三大全球主流具身智能測試集裏,Xiaomi-Robotics-0 對標超過 30 款主流模型,在所有基準測試中全部拿下SOTA,用實打實的數據坐穩行業第一梯隊,真正實現了 「仿真通、真機強、多模態能力不丟失」 的突破。
比技術更強的是小米的格局:這次成果直接全量開源—— 技術主頁、GitHub開源代碼、Hugging Face模型權重全部公開,全球開發者都能免費使用、二次開發,相關資源可在各大平台直接獲取,徹底打破了大廠對具身智能核心技術的壟斷。
這意味着,原本高高在上的具身智能技術,第一次真正向行業敞開大門,不再是大廠專屬玩具,普通開發者也能參與其中,加速整個行業的技術迭代。
雷軍也在微博中透露,小米早已深度佈局機器人賽道,目前仍在全球招募頂尖人才,團隊還在持續衝刺下一代技術,此次發布的 Xiaomi-Robotics-0 只是階段性研究成果,未來還會有更多突破。
當機器人不再是卡頓的演示道具,而是動作流暢、反應靈敏,還能在消費級硬件上輕鬆跑起來的真實產品,那個 「家用機器人走進千家萬戶」 的未來,真的離我們越來越近了。