伯克利最強代碼Agent屠榜SWE-Bench!用Scaling RL打造,配方全公開

市場資訊
07-07

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

新智元報道

編輯:YHluck

【新智元導讀】新晉AI編程冠軍DeepSWE來了!僅通過純強化學習拿下基準測試59%的準確率,憑啥?7大算法細節首次全公開。

AI編程領域競爭激烈,但多被閉源模型主導。

如今,一款開源軟件工程模型DeepSWE橫空出世,以59%的準確率大幅刷新了SOTA。

DeepSWE基於Qwen3-32B打造,並且只使用強了化學習進行訓練。

地址:https://github.com/agentica-project/rllm

模型:https://huggingface.co/agentica-org/DeepSWE-Preview

Agentica的項目負責人Michael Luo感嘆道,“那個過度定價、黑箱式的編碼助手時代要終結了!”

另外一個好消息是,Agentica團隊也慷慨解囊,開源了所有內容。

除了模型,還包括訓練代碼(rLLM)、數據集(R2EGym)以及實現完全可復現的訓練配方。

訓練方法

DeepSWE最大亮點是,相較於之前許多依賴“老師模型”(如 GPT-4)進行模仿學習(SFT或蒸餾)的路徑不同。

它僅用強化學習(RL)就能從零開始將一個基礎模型訓練成性能亮眼的智能體。

據官方介紹,DeepSWE是在模塊化RL後訓練框架rLLM上訓練的。

rLLM有一個好處,說白了,就是讓你自己動手攢一個用強化學習訓練出來的AI小能手,從頭到尾都不再那麼費勁了,直接拿去幹活兒就行。

使用R2E-Gym進行可擴展數據集管理

訓練環境方面,DeepSWE是在R2E-Gym訓練環境中(一個現有的Gym環境)訓練,用於高質量可執行SWE環境的可擴展管理。

狀態與動作

R2E-Gym定義了一組四個工具作爲動作空間的一部分:

1. 執行Bash:輸出LLM生成的bash命令的stdout和stderr。

2. 搜索:搜索並返回目錄或單個文件中所有符合LLM定義的查詢的結果。

3. 文件編輯器:允許查看、創建、替換字符串、插入以及撤銷對特定文件的編輯。

4. 完成/提交:LLM已決定解決了該拉取請求,這將終止軌跡生成。

獎勵模型

獎勵函數採用了一種稀疏的結果獎勵模型(ORM)。

研究人員驚喜的發現,僅僅通過簡單的“成功/失敗”獎勵信號,DeepSWE自發地學會高級程序員才具備的複雜行爲,例如:

算法方面,DeepSWE僅僅使用了強化學習來直接訓練,沒有使用蒸餾方法。

更值得關注的是,研發人員使用了獨家改良的GRPO++算法,這個算法在之前的基礎上做了增強。

爲了提升模型訓練的穩定性和性能的提升,研發人員整合7個算法:

1. Clip High (DAPO):提高GRPO/PPO替代損失的上限可以鼓勵探索並穩定熵。

2. 無KL損失(DAPO):消除KL損失可以防止LLM受限於原始SFT模型的信任區域。

3. 無獎勵標準差(Dr.GRPO):去除獎勵標準差可消除GRPO損失中的難度偏差,從而更好地區分難易問題。

4. 長度歸一化(Dr.GRPO):將替代損失除以最大上下文長度,可以消除GRPO中存在的長度偏差,這種偏差會增加錯誤響應的長度。

5. 一法(Loop/RLOO):在優勢估計中移除一個樣本,可以在不引入偏差的情況下降低策略梯度的方差。

6. 緊湊過濾:受DAPO啓發,對達到最大上下文長度、生成過程中超時(20分鐘)或達到最大步數的軌跡進行損失屏蔽。

7. 無熵損失:熵損失會引入更高的不穩定性,最終導致熵呈指數增長,從而使訓練崩潰。如果基礎模型的令牌級熵在0.3到1之間,則不需要熵損失。

針對其中一個算法“緊湊過濾”,研發人員強調了其對模型訓練優勢:

好處1:防止或延緩訓練過程中的獎勵崩潰(上圖)

好處2:減少了每一步的過度思考,並鼓勵跨步驟的長篇推理(下圖)

挑戰

當然,在訓練過程中也遇到了挑戰——擴展SWE-Bench環境。

研發人員指出,你可以想象下,在最後的訓練過程中,需要同時啓動好幾百個Docker容器。

因爲跑得太多、太猛,一瞬間搞出了幾千個,直接把Docker給整崩潰了。

爲了解決這個問題,研發人員將Kubernetes支持集成到了R2E-Gym環境中,使編排器能夠在節點池中調度容器。

研發人員,給每個幹活的服務器都配了頂配裝備

差不多200核的CPU,還有6T多的超高速固態硬盤。

爲了讓程序跑得飛快,研究員提前把所有要用的軟件(鏡像)都下載好存到本地硬盤裏了。

這樣一來,每次啓動程序就跟打開桌面軟件一樣秒開,根本不用再吭哧吭哧地去網上下載了。

研究人員指出,該集羣可以擴展到超過1000個CPU核心,並依賴Kubernetes集羣自動縮放器來自動添加或移除節點。

當Pod在短時間內無法調度時,自動縮放器會配置額外的工作節點;相反,它會移除那些大約二十分鐘內利用率較低的節點。

這種彈性設置能夠可靠地收集數百萬條軌跡,同時保持計算成本與負載成比例。

評估策略(TTS)

除了強大的模型本身,DeepSWE還採用了“測試時擴展 (TTS)”這一評估策略。

該策略通過“多方案生成 + 智能驗證”的方式,將性能推向了新的高度。

爲了提升其模型的Pass@1性能,研發人員在“測試時”想到了兩種方法:

方法一:擴展上下文長度(見上圖):

將最大上下文從16K擴展到128K個標記,性能有所提升。在超過32K時收益約爲2%,達到42.2%的Pass@1。

方法二:擴展代理部署(見下圖):

使用最佳選擇策略爲每個問題生成了多個代理部署。採用結合基於執行和免執行方法的混合驗證器,以選擇最佳的代理軌跡。

兩種方法確實帶來了性能的提升,在SWE-Bench Verified上達到59%,在開放權重的SWE-Agent中實現新的SOTA。

作者簡介

Michael Luo

Michael Luo,加州大學伯克利分校電氣工程與計算機科學系博士生,研究興趣聚焦人工智能和系統領域。

碩士和本科研究主要集中在強化學習(RL)的實際問題和應用,包括自然語言處理(NLP)、數據庫查詢優化以及視頻流。

Sijun Tan

Sijun Tan,目前是加州大學伯克利分校計算機科學系在校三年級的博士生,本科畢業於弗吉尼亞大學,獲得了計算機科學和數學雙學士學位。

研究重點是LLM後訓練和代理 AI。曾在Facebook人工智能研究(FAIR)實習,並在螞蟻集團擔任過高級算法工程師。

參考資料:

https://pretty-radio-b75.notion.site/DeepSWE-Training-a-Fully-Open-sourced-State-of-the-Art-Coding-Agent-by-Scaling-RL-22281902c1468193aabbe9a8c59bbe33 https://x.com/michaelzluo/status/1940504105686126748

https://x.com/hardmaru/status/1940592814884376919

https://pretty-radio-b75.notion.site/rLLM-A-Framework-for-Post-Training-Language-Agents-21b81902c146819db63cd98a54ba5f31

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10