羅福莉一場「伏擊」，讓雷軍腰桿硬起來了

文｜硅基星芒

3月19日，小米新一代SU7發布會如期舉行。雷軍站在聚光燈下，神態篤定，言辭從容。這份底氣，並非只來自新SU7。真正的驚喜，還來自另一條戰線。前DeepSeek工程師、現小米大模型團隊負責人羅福莉，帶領團隊在大模型領域完成了一場「悄無聲息的伏擊」。

當日晨間，雷軍通過個人社交媒體對外發布了Mimo-v2-Pro模型降臨的消息。此前在OpenRouter悄然出現的兩款匿名模型亮明身份，其中代號「Hunter Alpha」的模型調用量一度登頂日榜，累計突破萬億次。OpenClaw創始人Peter Steinberger曾在X平台上公開溯源詢問，如今得到了雷軍的正式回應。

兩款模型迅速登上Artificial Analysis排行榜，在智能水平與代理能力兩個維度上均進入國產模型前列。在AI開發者社區，小米以一種出人意料的方式完成了「後來者居上」的亮相。

然而，也有開發者實測指出，MiMo-V2-Flash存在「輸出無限循環」的偶發問題。更關鍵的質疑來自基準測試本身：OpenAI Frontier Evals團隊曾明確指出，小米引以為傲的SWE-bench Verified「實際上已經飽和且高度被污染」，建議行業轉向更難的SWE-bench Pro。這意味着，部分亮眼數據需要在更嚴格的測試框架下重新驗證。

羅福莉也在發布聲明中直言，「會開源——當模型足夠穩定值得開源的時候」。言下之意，眼前的MiMo-V2-Pro尚未達到她心中「值得開源」的標準。雷軍的表態同樣坦誠：「我們模型啱啱完成，未來一段時間，還會快速迭代增強。」這既是對外界的承諾，也是對現狀的坦率承認——MiMo-V2-Pro確實還有不少短板需要彌補。

但瑕不掩瑜的是，MiMo-V2-Pro真正經得起審視的，是ARL-Tangram這項系統級創新。它纔是羅福莉這場伏擊的真正殺招，也是雷軍腰桿挺直的底氣所在。

01MiMo-V2-Pro的最大亮點

為了讓大語言模型具備在真實世界中執行任務的能力，羅福莉帶領的研究團隊做出了一個極其準確的判斷：

針對智能體的強化學習是不可或缺的核心技術。

與大語言模型不同，要想訓練這些更聰明的智能體，就必須讓它瘋狂調用外部資源，比如用CPU跑代碼、用GPU跑獎勵模型打分，甚至是消耗海量的外部搜索引擎API配合。

毫無疑問，結果必然伴隨指數級增長的成本。

但研究團隊卻在這個過程中發現了一個問題：

現有的AI系統面對這些複雜的需求時，往往採用簡單粗暴的「過度資源配置」，算力浪費甚至高達70%以上。

為了打破這個瓶頸，研究團隊提出了一項系統級創新，名為ARL-Tangram。

在這個系統中，「動作級編排」這個概念令人眼前一亮，它能將外部資源分配的粒度細化到極致，不僅能讓動作完成時間（ACT）提速4.3倍，還能節省71.2%的外部算力資源。

更重要的是，它不是只停留於實驗室的想法，而是已經在小米MiMo兩款新模型的訓練中實際落地的策略，商業化價值初步顯現。

02走上牌桌的「智能體強化學習」

在細聊ARL-Tangram這項技術之前，首先得了解「智能體強化學習」這個概念。

一般來說，強化學習此前針對的都是大語言模型（LLM）的訓練過程，傳統LLM訓練主要在GPU集群內閉環完成。

但是，現在人們已經不需要一個網頁中的聊天助手，而是需要一個能操控設備的「數字牛馬」。

智能體應運而生，它的底層是大語言模型，自然也需要類似的訓練過程。

在採樣展開（Rollout）階段，模型需要不斷地與Shell命令、Python解釋器、搜索引擎API等外部工具和真實環境交互。

為了完成一項複雜的任務，與外部環境進行的「多輪交互、反覆試錯」這一系列環節被定義為軌跡。整條軌跡結束後，還需要調用獎勵模型來進行打分。

因此，智能體強化學習的訓練過程，高度依賴於大語言模型訓練集群之外的異構外部資源。

而現有的開源強化學習框架在處理這些外部資源的分配問題時，往往採用的是「寧濫勿缺」的過度配置策略，這在兩個層面上同時造成了算力的「黑洞」：

一是軌跡內的過度配置。

為了保證智能體在「反覆試錯」的過程中能夠保證環境隔離，現有的系統大多會在一條執行軌跡的整個生命周期內，為它鎖定一塊專屬的硬件資源。

論文中的實測數據更是超乎所有人的設想：在AI編程任務中，智能體真正在運行代碼的時間平均只有47%。

而剩下53%的時間，底層的大模型正在思考或生成下一步的代碼，但此時被強制佔用的CPU資源完全處於閒置狀態。

二是任務內的過度配置。

到了獎勵模型打分的階段，情況變得更加嚴重。

不同的強化學習任務一般需要調用不同架構的參數的專屬獎勵模型，為了保證打分的低延遲，開發者往往會為每一個獎勵模型掛載多張昂貴的GPU。

但在強化學習訓練的全過程中，這些獎勵模型大多時間都處於「零請求」狀態。

實測數據顯示，在某個業務線並行的12個獎勵模型所在的GPU集群，流式多處理器的平均活躍度連3%都不到。

英偉達的「卡脖子」越來越緊，寶貴的算力被霸佔卻空無產出，燒錢的同時，延遲和併發吞吐量也被限制，從商業角度看，這完全是不可接受的事實。

03 ARL-Tangram與動作級調度

為了解決這種無意義的資源浪費問題，小米的研究團隊試圖通過將任務流程進一步細分來優化資源分配，也就是所謂的「動作級調度」。

類似於化學中分子和原子的概念，一個「動作」指的就是底層大模型與外部資源進行的一次不可分割的交互。

它可以是執行一行Python代碼，也可以是向Google發起一次網頁查詢API。

在這些動作的發生期間，大模型本身無需生成任何文本，只是純粹在等待外部環境給出執行結果。

ARL-Tangram的核心邏輯很簡單：既然大模型只有在這個瞬間才需要外部資源，那就只在這個瞬間給大模型分配資源。

不得不說，小米的研究團隊很會給技術起名，Tangram就是七巧板的意思，而這套系統恰好能像七巧板一樣靈活地拼裝和調度資源。

按照這個理念，ARL-Tangram的核心操作一共有兩項：

一是拆解（Breakdown）：打破長生命周期環境對物理資源的持續佔用。

只要一個動作執行完畢，系統馬上把CPU和GPU資源抽走並釋放，同時保留環境的上下文狀態，等下一次動作來臨時再恢復。

二是池化（Pool）：將所有釋放出來的閒置資源放進一個全局統一的資源池中。

智能體的實際應用過程中往往有海量的動作併發到來，系統會根據排隊情況，彈性地按需分配資源給最需要的動作。

04 ARL-Tangram的核心架構

理念簡單而美好。但要在複雜的GPU集群中跑通這套邏輯，就會有很多工程挑戰擺在眼前：

智能體要求動作執行時間極短、資源類型複雜多樣、環境狀態需要瞬間保存和恢復。

為此，研究團隊為ARL-Tangram設計了三個核心組件：

①統一的動作建模（Unified Action Formulation）

面對CPU的內核、GPU的顯存、搜索引擎網站的API調用次數這些截然不同的物理資源，要想在同一個隊列內進行統籌調度，就必須有一個統一的度量方法。

ARL-Tangram的方法是將每一個動作的資源成本都抽象為一個多維向量。

更重要的是，它還引入了彈性建模技術。

系統會自動識別哪些動作具備彈性：例如，4個CPU核心運行測試用例需要10秒，而16個CPU核心只需要3秒，這就為後續的動態智能調度提供了明確的數學依據。

②彈性資源調度算法（Elastic Resource Scheduling）

智能體運行的過程中，調度時間只有幾毫秒，面對海量並行而來的動作，算法必須在此期間最小化所有排隊動作的總體完成時間（ACT）。

系統採用的是一種基於「貪心驅逐（Greedy Eviction）」的輕量級啓發式算法。

簡單來說，面對一大堆正在排隊的動作，調度器首先實現「保底」，給每個候選動作分配僅能滿足其運行的最小資源。

然後，算法會貪婪地嘗試從隊列末尾的動作手中「搶走資源」，並把這些資源加碼分配給排在隊列前面的具備彈性的動作。

如果經過計算，這種「集中力量辦大事」的方法能夠讓總體等待和執行時間變得更短，那就毫不猶豫地立刻執行。

③異構資源管理器

調度機制已經清晰，接下來就該處理底層硬件資源的落地問題了。

ARL-Tangram針對CPU和GPU集群，研發了一套專用的底層管理機制：

對於CPU管理器，採用「執行時分配（Allocate-on-Execution, AOE）」:

動作執行完畢後，立刻回收CPU核心，但保留內存以維持環境狀態，CPU複用率直接拉滿。

對於GPU管理器，採用「執行時驅逐（Evict-on-Execution, EOE）」:

由於獎勵模型啓動極慢，而GPU顯存寸土寸金，不可能把所有獎勵模型都常駐在GPU中。

因此，將所有獎勵模型的服務狀態都備份在廉價的CPU內存中。

當一個動作需要特定的獎勵模型時，如果GPU顯存中有，那就直接運行；如果沒有，系統將瞬間把不活躍的獎勵模型從GPU顯存中「驅逐」出去，並把需要的模型從CPU內存中加載出來。

配合上自主研發的顯存分塊策略和LRU驅逐算法，GPU碎片化和服務抖動問題也得以解決。

05 實戰測試：降本增效能力一目瞭然

理論已經完備，接下來就該實際應用看看效果了。

研究團隊在擁有數百張英偉達Hopper架構GPU和數千個CPU核心的集群中，針對AI編程、深度搜索和多任務獎勵對齊等典型的真實業務場景，對ARL-Tangram進行了嚴格評估。

最直觀的效果就是速度的飆升，解決了「排隊擁堵」的情況。

在同樣的硬件資源下，ARL-Tangram處理突發流量得心應手。AI編程和深度搜索任務中，單步訓練時間分別縮短1.4倍和1.5倍。

由於徹底消除了軌跡內的過度配置，環境交互和獎勵計算的耗時分別下降了9.0倍和2.8倍，總體的動作完成速度最高能達到4.3倍。

速度提升的背後，則是極致的性價比和算力利用率。

在固定併發量（Batch Size 1024）的極限測試中，對比業界流行的基線方案，ARL-Tangram展現出了強大的資源壓縮能力。

例如，為了服務10個不同的獎勵模型，基線方案必須長期佔用大量GPU，而ARL-Tangram只需使用基線方案29%的GPU資源就可以達到相同的處理延遲。

對於企業來說，這就意味着節約了71.2%的昂貴外部算力。

若是進一步測試極限，將Batch Size提升至1526，傳統的K8s調度器由於資源耗盡直接崩潰，而ARL-Tangram仍然穩如泰山。

在CPU可擴展性測試中，平均任務完成時間相比基線降低了27.7倍；在GPU集群上，面對高併發場景，ARL-Tangram也能流暢地提供服務。

06 小米大模型的「伏擊」之路

回顧兩年前國內大模型的蓬勃發展，小米在AI領域的起步似乎並不算順利。

在騰訊、阿里、百度等互聯網大廠和智譜、Minimax、月之暗面等AI初創企業接連推出世界知名的大模型時，小米顯得尤為沉默。

哪怕是現在，提起小米，人們最先想起來的也是手機和汽車，以及雷軍的那場「Are you OK?」發布會。

然而，ARL-Tangram和兩款最新模型的發布，卻讓小米一躍成為國產AI的第一梯隊，並在部分維度上超越了起步更早的競品。

對於如何實現這種「後發先至」的跨越，ARL-Tangram的論文其實已經給出了答案。

在AI競爭的下半場，企業競爭的核心已經不再是誰能堆砌更多的參數，或是誰能購買到更多的顯卡。

在所有人都已經意識到智能體會成為現階段最可能通往AGI的必經之路時，小米率先注意到了針對智能體的強化學習纔是大廠之間的決勝局。

訓練一個聰明的智能體，必將消耗極其龐大且碎片化的異構計算資源。

如果不解決底層的調度效率問題，算法工程師腦中天才般的想法只會被緩慢的實驗迭代周期和燃燒着的賬單拖垮。

ARL-Tangram的意義就在於提供了一套高度工程化、可無縫落地且具有巨大商業價值的解決方案。

全面部署到小米MiMo系列大模型訓練的流水線後，智能體代理能力的提升有目共睹。

技術突破的背後，永遠有人的故事和企業戰略的交鋒。

在這篇重磅論文的作者列表中，可以看到一個熟悉的名字：羅福莉。

這位曾經在DeepSeek任職的核心技術人員，拒絕被外界稱為天才少女，始終把自己定位為一個用代碼和工程解決實際問題的技術人。

ARL-Tangram一樣，彈性按需分配的思路在計算機領域並不罕見，但小米卻第一個腳踏實地將技術落實到了產品之中。

如今看來，雷軍將羅福莉從DeepSeek挖至麾下，無疑是一次極具戰略眼光的人才投資。

若是放在過去的兩年之中，外界的懷疑聲音早已接踵而來，但ARL-Tangram技術的誕生，以及小米兩款新模型的驚豔表現已經給出的確切的回答：

雷軍的這筆AI投資，不僅投對了，而且把好鋼用在了刀刃上。

160億的資金不一定能在算力堆砌上產生結果，但卻能砸開底層基礎設施的堅固壁壘。

系統基建決定了算法的天花板，在擁有了運行速度快4倍的底層訓練框架時，競爭壁壘就已經在無形之中建立起來。

大模型商業競爭的下半場，小米正努力擠上牌桌。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

羅福莉一場「伏擊」，讓雷軍腰桿硬起來了

熱議股票