離開Meta的大佬們,留下作品還在陸續發表,今天輪到田淵棟。
這次他帶領團隊把目光投向了大模型強化學習訓練中一個令人困惑的現象:為什麼RL訓練明明帶來巨大性能提升,卻只改變了極少數參數。

論文剖析了可驗證獎勵強化學習(RLVR)的訓練動態,戳破了一個誤區,參數更新的稀疏只是表面現象,背後是RLVR有個固定的優化偏好。
對於同一個預訓練模型來說,無論用什麼數據集和RL算法,RLVR只盯着同一小部分參數修改。
團隊還提出了一個全新的三門理論(Three-Gate Theory),一步步說明RLVR的參數更新是怎麼定位至特定參數區域的。

三門理論:RL參數更新的內在機制
像OpenAI-o3和DeepSeek-R1這樣的推理模型,都是通過大規模RLVR訓練獲得數學和編程能力的大幅增強。
按理說,如此巨大的能力提升應該伴隨着大量參數的改變,但最近的研究卻發現,RL訓練產生的參數更新是稀疏的,而監督微調(SFT)的參數更新是密集的。
這種高收益、低變化的悖論引發了Meta團隊的關注。
他們分析了包括Qwen系列和DeepSeek-R1-Distill-Qwen在內的多個開源模型,這些模型經過超過3000步的長時間RL訓練,涵蓋數學、編程、STEM、邏輯謎題和指令遵循等多樣化任務。
通過設計一種bfloat16精度感知的探測方法,研究團隊準確測量了參數更新的稀疏度。結果顯示,SFT的稀疏度通常只有0.6%到18.8%,而RL的稀疏度高達36%到92%,相差了一個數量級。

但更重要的發現是,這種稀疏性只是表面現象,背後隱藏着一個更深層的機制:模型條件優化偏差(model-conditioned optimization bias)。
為瞭解釋這種獨特的訓練行為,研究團隊提出了三門理論,解釋了RL更新是如何被約束、引導和過濾的。
第一門:KL錨定(KL Anchor)。
RLVR的核心是 「試錯學習」,但他次更新不會讓模型的輸出風格太偏離(比如原來模型說話簡潔,不能越學習越囉嗦)。
這個機制背後原理是,在線策略梯度更新會在每一步施加策略KL界限。
即使在沒有顯式KL正則項的DAPO算法中,比例裁剪技巧仍然會施加O(ε²)的KL界限。這種錨定效應確保了每步相對於當前策略的漂移很小,進而限制了參數的移動範圍。

第二門:模型幾何(Model Geometry)。
預訓練模型擁有高度結構化的幾何特性,比如模型裏負責核心邏輯的參數,對應高曲率區域,改動起來影響大,但容易不穩定。
在KL約束下,RL更新傾向於保持模型的原始權重結構,自然偏向於優化景觀中的低曲率方向。
反觀SFT,因為修改高曲率區域容易接近標準答案,但改多了會把模型原有的能力框架 打亂,反而不利於複雜推理。

第三門:精度過濾(Precision)。
bfloat16的有限精度充當了一個透鏡,隱藏了在RL不願施加大改變區域的微小更新。
由於bfloat16只有7位尾數,小於單位最低位(ULP)閾值的變化無法表示。如果RL持續更新路由到特定參數子集,存儲的值就不會改變,結果就表現為稀疏性。
如果換成更高精度(比如 float32),會發現更多參數改動。
論文做了很多實驗驗證上面的邏輯,確認了RLVR和SFT在參數空間中的優化區域完全不同。
通過分析奇異值分解(SVD)重構後的主成分權重,團隊發現RL更新與主成分權重的重疊度始終低於隨機水平,表明RL有強烈的傾向避開這些權重。相反,RL更新與低幅度權重顯示出超隨機的重疊,這是因為它們對微小更新的阻力較低。

以及因果性驗證實驗,團隊通過正交旋轉和頭部置換故意」擾亂」Qwen3-4B-Base模型特定層的幾何結構。結果顯示,在被幹預的層中,更新重疊度降至隨機水平,而在未觸及的層中保持較高,這證明預訓練模型的幾何結構是優化偏差的來源。

在光譜分析方面,RLVR檢查點在頂部主成分內表現出明顯穩定的譜:跨層的主子空間旋轉一致較小,譜漂移最小。奇異值曲線幾乎與基礎模型相同。相比之下,SFT在相同指標上引起了顯著更大的旋轉和明顯的漂移。

對參數高效微調方法的啓示
這項研究不僅解釋了觀察到的現象,還為RL訓練算法的設計提供了指導。
團隊的發現表明,許多SFT時代的參數高效微調(PEFT)方法,特別是通過稀疏或低秩先驗與主方向對齊的方法,在RLVR中的遷移效果很差。
在稀疏微調實驗中,僅更新主成分權重(SFT偏好的方向)會產生最差的優化軌跡,KL曲線上升緩慢,顯示出過度干預和退化的訓練動態。
相反,更新非主成分、低幅度權重恰好符合理論預測的離主成分區域,能夠緊密跟蹤密集RLVR軌跡。
對於最近流行的LoRA變體,研究發現主成分定向的PiSSA並沒有比標準LoRA帶來額外收益。
在用於匹配全參數性能的較高學習率下,PiSSA經常變得不穩定並提前崩潰。這是因為在PiSSA中擴大學習率會強制沿主方向更新,而這些方向具有更高曲率和譜扭曲特性,正是RLVR傾向於避免的方向。

論文地址:https://arxiv.org/abs/2511.08567