RL微調,關鍵在前10%獎勵!基於評分準則,Scale AI等提出新方法

新智元
10/16

讓大模型按照人類意圖行事,一直是AI領域的核心挑戰。目前主流的強化學習微調(RFT)方法雖然有效,但存在一個致命弱點:獎勵過度優化(reward over-optimization)。

獎勵過度優化是大模型對齊的「阿喀琉斯之踵」。

簡單來說,就是模型學會了「鑽空子」——它們不是真正變得更好,而是學會了如何在獎勵模型上刷高分,實際輸出質量反而下降。這就像考試時學生死記硬背標準答案來應付老師,而不是真正理解知識。

Scale AI的最新研究直擊這一痛點,從理論層面揭示了問題的根源,並提出了創新的解決方案。

代碼開源:https://github.com/Jun-Kai-Zhang/rubrics

數據開源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理論突破

高分區纔是關鍵戰場

來自Scale AI、UCLA和芝加哥大學的研究團隊,首次從理論上給出了明確答案:

獎勵過度優化的根源,在於獎勵模型在高分區的不準確性

  • 高獎勵區域的準確性決定一切:當代理獎勵在高分區域出現偏差時,模型性能會隨着訓練進程急劇崩潰;而低分區域的誤差影響微乎其微。

  • 只需要準確識別Top 2響應:即使只能正確排序前10%的優質回答,模型性能就能接近最優,效果幾乎與完美獎勵模型相當。

這意味着:我們不需要在所有回覆上都準確,需要準確區分「優秀」和「卓越」!

方法創新

用評分準則捕捉「卓越」

理論清晰了,但新問題來了:如何獲得高質量樣本來訓練獎勵模型?這裏存在一個悖論:

從基礎模型採樣?太低效了——高分樣本本來就稀少。

用更強模型生成?又會引入分佈偏移——獎勵模型可能學到的是表面特徵而非真實能力。

研究團隊提出了基於評分準則(rubric)的解決方案。評分準則是一組衡量回答好壞的明確準則,每個準則都有相應權重。比如對於醫療診斷問題,可能包括:

高權重準則:「正確識別疾病」「標明緊急程度」

低權重準則:「提及治療方案」

Rubric的核心優勢在於

  • 將評分分解為多個可驗證的具體標準

  • 每個標準都是二元判斷(滿足/不滿足)

  • 最終得分是滿足標準的加權平均

更重要的是,Rubric天然具有分佈不變性——它關注的是回覆本身的質量特徵,而非生成來源。

兩大原則:如何構建有效的Rubric

為了讓Rubric真正捕捉高分區的差異,研究團隊提出兩大關鍵原則:

  • 原則1:區分「優秀」與「卓越」通過對比兩個都很好的回答,識別它們的細微差異,將這些差異編碼為新的評分準則。

  • 原則2:在多樣化的優質回答中尋找差異擴大候選池,從16個頂尖模型中採樣,確保覆蓋不同的優秀回答模式。

實驗驗證

全面碾壓基線方法

研究在通用和醫療兩個領域進行了大規模實驗:

性能提升明顯

  • 使用優質樣本改進的評分準則,勝率從31.3%提升至39.7%

  • 醫療領域的HealthBench得分從0.3004提升至0.3513

有效緩解獎勵過度優化

  • 初始評分準則訓練的模型在60步後性能急劇下降

  • 改進後的評分準則將崩潰點推遲到160步,延長了近3倍

高獎勵區域準確率大幅提升

評分準則改進後,在高獎勵區域的準確率提升顯著,而低獎勵區域的準確率基本不變,完美驗證了理論預測。

質的飛躍:優秀樣本帶來更深層的改進

研究團隊還分析了不同質量樣本帶來的Rubric改進類型:

優秀樣本驅動的改進

  • 添加懲罰項,避免明顯錯誤

  • 放寬過於嚴格的標準

  • 糾正錯誤或對齊預期標準

卓越樣本驅動的改進

  • 將複雜標準分解為子標準

  • 增強驗證和證據標準

  • 明確範圍、邊界和約束

  • 納入風險分析和安全約束

以醫療案例為例:

初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個優秀回覆都滿足。

精煉後的Rubric新增標準:「明確指出需要緊急影像學檢查(如增強CT或MRI/MRV)來確認診斷」,成功區分出了更好的那個。

這就是質的飛躍:從表面判斷到深層驗證標準。

產業意義與展望

這項研究為大模型對齊提供了全新視角:

理論指導實踐:明確了獎勵建模的優化方向——聚焦高獎勵區域

方法可操作性強:基於評分準則的方法易於實施和解釋

領域適應性好:在醫療等專業領域表現尤其出色

當然,研究也指出了當前的侷限:

  • 簡單的加權平均可能不是最優的分數聚合方式

對於大模型從業者來說,這項工作提供了一個清晰的方向:

不要試圖在所有地方都完美,專注於準確區分頂尖回覆,這纔是對齊的關鍵。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10