讓大模型按照人類意圖行事,一直是AI領域的核心挑戰。目前主流的強化學習微調(RFT)方法雖然有效,但存在一個致命弱點:獎勵過度優化(reward over-optimization)。
獎勵過度優化是大模型對齊的「阿喀琉斯之踵」。
簡單來說,就是模型學會了「鑽空子」——它們不是真正變得更好,而是學會了如何在獎勵模型上刷高分,實際輸出質量反而下降。這就像考試時學生死記硬背標準答案來應付老師,而不是真正理解知識。
Scale AI的最新研究直擊這一痛點,從理論層面揭示了問題的根源,並提出了創新的解決方案。

代碼開源:https://github.com/Jun-Kai-Zhang/rubrics
數據開源:https://huggingface.co/datasets/JunkaiZ/Rubrics
理論突破
高分區纔是關鍵戰場
來自Scale AI、UCLA和芝加哥大學的研究團隊,首次從理論上給出了明確答案:
獎勵過度優化的根源,在於獎勵模型在高分區的不準確性。
高獎勵區域的準確性決定一切:當代理獎勵在高分區域出現偏差時,模型性能會隨着訓練進程急劇崩潰;而低分區域的誤差影響微乎其微。
只需要準確識別Top 2響應:即使只能正確排序前10%的優質回答,模型性能就能接近最優,效果幾乎與完美獎勵模型相當。
這意味着:我們不需要在所有回覆上都準確,只需要準確區分「優秀」和「卓越」!

方法創新
用評分準則捕捉「卓越」
理論清晰了,但新問題來了:如何獲得高質量樣本來訓練獎勵模型?這裏存在一個悖論:
從基礎模型採樣?太低效了——高分樣本本來就稀少。
用更強模型生成?又會引入分佈偏移——獎勵模型可能學到的是表面特徵而非真實能力。
研究團隊提出了基於評分準則(rubric)的解決方案。評分準則是一組衡量回答好壞的明確準則,每個準則都有相應權重。比如對於醫療診斷問題,可能包括:
高權重準則:「正確識別疾病」「標明緊急程度」
低權重準則:「提及治療方案」
Rubric的核心優勢在於:
將評分分解為多個可驗證的具體標準
每個標準都是二元判斷(滿足/不滿足)
最終得分是滿足標準的加權平均
更重要的是,Rubric天然具有分佈不變性——它關注的是回覆本身的質量特徵,而非生成來源。


兩大原則:如何構建有效的Rubric
為了讓Rubric真正捕捉高分區的差異,研究團隊提出兩大關鍵原則:
原則1:區分「優秀」與「卓越」。通過對比兩個都很好的回答,識別它們的細微差異,將這些差異編碼為新的評分準則。
原則2:在多樣化的優質回答中尋找差異。擴大候選池,從16個頂尖模型中採樣,確保覆蓋不同的優秀回答模式。

實驗驗證
全面碾壓基線方法
研究在通用和醫療兩個領域進行了大規模實驗:
性能提升明顯
使用優質樣本改進的評分準則,勝率從31.3%提升至39.7%
醫療領域的HealthBench得分從0.3004提升至0.3513
有效緩解獎勵過度優化
初始評分準則訓練的模型在60步後性能急劇下降
改進後的評分準則將崩潰點推遲到160步,延長了近3倍


高獎勵區域準確率大幅提升
評分準則改進後,在高獎勵區域的準確率提升顯著,而低獎勵區域的準確率基本不變,完美驗證了理論預測。
質的飛躍:優秀樣本帶來更深層的改進
研究團隊還分析了不同質量樣本帶來的Rubric改進類型:
優秀樣本驅動的改進:
添加懲罰項,避免明顯錯誤
放寬過於嚴格的標準
糾正錯誤或對齊預期標準
卓越樣本驅動的改進:
將複雜標準分解為子標準
增強驗證和證據標準
明確範圍、邊界和約束
納入風險分析和安全約束
以醫療案例為例:
初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個優秀回覆都滿足。
精煉後的Rubric新增標準:「明確指出需要緊急影像學檢查(如增強CT或MRI/MRV)來確認診斷」,成功區分出了更好的那個。
這就是質的飛躍:從表面判斷到深層驗證標準。
產業意義與展望
這項研究為大模型對齊提供了全新視角:
理論指導實踐:明確了獎勵建模的優化方向——聚焦高獎勵區域
方法可操作性強:基於評分準則的方法易於實施和解釋
領域適應性好:在醫療等專業領域表現尤其出色
當然,研究也指出了當前的侷限:
簡單的加權平均可能不是最優的分數聚合方式
對於大模型從業者來說,這項工作提供了一個清晰的方向:
不要試圖在所有地方都完美,專注於準確區分頂尖回覆,這纔是對齊的關鍵。