伯克利最強代碼Agent屠榜SWE-Bench！用Scaling RL打造，配方全公開

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

新智元報道

編輯：YHluck

【新智元導讀】新晉AI編程冠軍DeepSWE來了！僅通過純強化學習拿下基準測試59%的準確率，憑啥？7大算法細節首次全公開。

AI編程領域競爭激烈，但多被閉源模型主導。

如今，一款開源軟件工程模型DeepSWE橫空出世，以59%的準確率大幅刷新了SOTA。

DeepSWE基於Qwen3-32B打造，並且只使用強了化學習進行訓練。

地址：https://github.com/agentica-project/rllm

模型：https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責人Michael Luo感嘆道，“那個過度定價、黑箱式的編碼助手時代要終結了！”

另外一個好消息是，Agentica團隊也慷慨解囊，開源了所有內容。

除了模型，還包括訓練代碼（rLLM）、數據集（R2EGym）以及實現完全可復現的訓練配方。

訓練方法

DeepSWE最大亮點是，相較於之前許多依賴“老師模型”（如 GPT-4）進行模仿學習（SFT或蒸餾）的路徑不同。

它僅用強化學習（RL）就能從零開始將一個基礎模型訓練成性能亮眼的智能體。

據官方介紹，DeepSWE是在模塊化RL後訓練框架rLLM上訓練的。

rLLM有一個好處，說白了，就是讓你自己動手攢一個用強化學習訓練出來的AI小能手，從頭到尾都不再那麼費勁了，直接拿去幹活兒就行。

使用R2E-Gym進行可擴展數據集管理

訓練環境方面，DeepSWE是在R2E-Gym訓練環境中（一個現有的Gym環境）訓練，用於高質量可執行SWE環境的可擴展管理。

狀態與動作

R2E-Gym定義了一組四個工具作爲動作空間的一部分：

1. 執行Bash：輸出LLM生成的bash命令的stdout和stderr。

2. 搜索：搜索並返回目錄或單個文件中所有符合LLM定義的查詢的結果。

3. 文件編輯器：允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交：LLM已決定解決了該拉取請求，這將終止軌跡生成。

獎勵模型

獎勵函數採用了一種稀疏的結果獎勵模型（ORM）。

研究人員驚喜的發現，僅僅通過簡單的“成功/失敗”獎勵信號，DeepSWE自發地學會了高級程序員才具備的複雜行爲，例如：

算法方面，DeepSWE僅僅使用了強化學習來直接訓練，沒有使用蒸餾方法。

更值得關注的是，研發人員使用了獨家改良的GRPO++算法，這個算法在之前的基礎上做了增強。

爲了提升模型訓練的穩定性和性能的提升，研發人員整合7個算法：

1. Clip High (DAPO)：提高GRPO/PPO替代損失的上限可以鼓勵探索並穩定熵。

2. 無KL損失（DAPO）：消除KL損失可以防止LLM受限於原始SFT模型的信任區域。

3. 無獎勵標準差（Dr.GRPO）：去除獎勵標準差可消除GRPO損失中的難度偏差，從而更好地區分難易問題。

4. 長度歸一化（Dr.GRPO）：將替代損失除以最大上下文長度，可以消除GRPO中存在的長度偏差，這種偏差會增加錯誤響應的長度。

5. 一法（Loop/RLOO）：在優勢估計中移除一個樣本，可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾：受DAPO啓發，對達到最大上下文長度、生成過程中超時（20分鐘）或達到最大步數的軌跡進行損失屏蔽。

7. 無熵損失：熵損失會引入更高的不穩定性，最終導致熵呈指數增長，從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間，則不需要熵損失。

針對其中一個算法“緊湊過濾”，研發人員強調了其對模型訓練優勢：

好處1：防止或延緩訓練過程中的獎勵崩潰（上圖）

好處2：減少了每一步的過度思考，並鼓勵跨步驟的長篇推理（下圖）

挑戰

當然，在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。

研發人員指出，你可以想象下，在最後的訓練過程中，需要同時啓動好幾百個Docker容器。

因爲跑得太多、太猛，一瞬間搞出了幾千個，直接把Docker給整崩潰了。

爲了解決這個問題，研發人員將Kubernetes支持集成到了R2E-Gym環境中，使編排器能夠在節點池中調度容器。

研發人員，給每個幹活的服務器都配了頂配裝備：

差不多200核的CPU，還有6T多的超高速固態硬盤。

爲了讓程序跑得飛快，研究員提前把所有要用的軟件（鏡像）都下載好存到本地硬盤裏了。

這樣一來，每次啓動程序就跟打開桌面軟件一樣秒開，根本不用再吭哧吭哧地去網上下載了。

研究人員指出，該集羣可以擴展到超過1000個CPU核心，並依賴Kubernetes集羣自動縮放器來自動添加或移除節點。

當Pod在短時間內無法調度時，自動縮放器會配置額外的工作節點；相反，它會移除那些大約二十分鐘內利用率較低的節點。

這種彈性設置能夠可靠地收集數百萬條軌跡，同時保持計算成本與負載成比例。

評估策略（TTS)

除了強大的模型本身，DeepSWE還採用了“測試時擴展 (TTS)”這一評估策略。

該策略通過“多方案生成 + 智能驗證”的方式，將性能推向了新的高度。

爲了提升其模型的Pass@1性能，研發人員在“測試時”想到了兩種方法：

方法一：擴展上下文長度（見上圖）：

將最大上下文從16K擴展到128K個標記，性能有所提升。在超過32K時收益約爲2%，達到42.2%的Pass@1。

方法二：擴展代理部署（見下圖）：

使用最佳選擇策略爲每個問題生成了多個代理部署。採用結合基於執行和免執行方法的混合驗證器，以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升，在SWE-Bench Verified上達到59%，在開放權重的SWE-Agent中實現新的SOTA。

作者簡介

Michael Luo

Michael Luo，加州大學伯克利分校電氣工程與計算機科學系博士生，研究興趣聚焦人工智能和系統領域。

碩士和本科研究主要集中在強化學習（RL）的實際問題和應用，包括自然語言處理（NLP）、數據庫查詢優化以及視頻流。

Sijun Tan

Sijun Tan，目前是加州大學伯克利分校計算機科學系在校三年級的博士生，本科畢業於弗吉尼亞大學，獲得了計算機科學和數學雙學士學位。

研究重點是LLM後訓練和代理 AI。曾在Facebook人工智能研究（FAIR）實習，並在螞蟻集團擔任過高級算法工程師。

參考資料：

https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art-Coding-Agent-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33 https://x.com/michaelzluo/status/1940504105686126748

https://x.com/hardmaru/status/1940592814884376919

https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

伯克利最強代碼Agent屠榜SWE-Bench！用Scaling RL打造，配方全公開

熱議股票