RL微调,关键在前10%奖励!基于评分准则,Scale AI等提出新方法

新智元
Oct 16

让大模型按照人类意图行事,一直是AI领域的核心挑战。目前主流的强化学习微调(RFT)方法虽然有效,但存在一个致命弱点:奖励过度优化(reward over-optimization)。

奖励过度优化是大模型对齐的“阿喀琉斯之踵”。

简单来说,就是模型学会了“钻空子”——它们不是真正变得更好,而是学会了如何在奖励模型上刷高分,实际输出质量反而下降。这就像考试时学生死记硬背标准答案来应付老师,而不是真正理解知识。

Scale AI的最新研究直击这一痛点,从理论层面揭示了问题的根源,并提出了创新的解决方案。

代码开源:https://github.com/Jun-Kai-Zhang/rubrics

数据开源:https://huggingface.co/datasets/JunkaiZ/Rubrics

理论突破

高分区才是关键战场

来自Scale AI、UCLA和芝加哥大学的研究团队,首次从理论上给出了明确答案:

奖励过度优化的根源,在于奖励模型在高分区的不准确性

  • 高奖励区域的准确性决定一切:当代理奖励在高分区域出现偏差时,模型性能会随着训练进程急剧崩溃;而低分区域的误差影响微乎其微。

  • 只需要准确识别Top 2响应:即使只能正确排序前10%的优质回答,模型性能就能接近最优,效果几乎与完美奖励模型相当。

这意味着:我们不需要在所有回复上都准确,需要准确区分“优秀”和“卓越”!

方法创新

用评分准则捕捉“卓越”

理论清晰了,但新问题来了:如何获得高质量样本来训练奖励模型?这里存在一个悖论:

从基础模型采样?太低效了——高分样本本来就稀少。

用更强模型生成?又会引入分布偏移——奖励模型可能学到的是表面特征而非真实能力。

研究团队提出了基于评分准则(rubric)的解决方案。评分准则是一组衡量回答好坏的明确准则,每个准则都有相应权重。比如对于医疗诊断问题,可能包括:

高权重准则:“正确识别疾病”“标明紧急程度”

低权重准则:“提及治疗方案”

Rubric的核心优势在于

  • 将评分分解为多个可验证的具体标准

  • 每个标准都是二元判断(满足/不满足)

  • 最终得分是满足标准的加权平均

更重要的是,Rubric天然具有分布不变性——它关注的是回复本身的质量特征,而非生成来源。

两大原则:如何构建有效的Rubric

为了让Rubric真正捕捉高分区的差异,研究团队提出两大关键原则:

  • 原则1:区分“优秀”与“卓越”通过对比两个都很好的回答,识别它们的细微差异,将这些差异编码为新的评分准则。

  • 原则2:在多样化的优质回答中寻找差异扩大候选池,从16个顶尖模型中采样,确保覆盖不同的优秀回答模式。

实验验证

全面碾压基线方法

研究在通用和医疗两个领域进行了大规模实验:

性能提升明显

  • 使用优质样本改进的评分准则,胜率从31.3%提升至39.7%

  • 医疗领域的HealthBench得分从0.3004提升至0.3513

有效缓解奖励过度优化

  • 初始评分准则训练的模型在60步后性能急剧下降

  • 改进后的评分准则将崩溃点推迟到160步,延长了近3倍

高奖励区域准确率大幅提升

评分准则改进后,在高奖励区域的准确率提升显著,而低奖励区域的准确率基本不变,完美验证了理论预测。

质的飞跃:优秀样本带来更深层的改进

研究团队还分析了不同质量样本带来的Rubric改进类型:

优秀样本驱动的改进

  • 添加惩罚项,避免明显错误

  • 放宽过于严格的标准

  • 纠正错误或对齐预期标准

卓越样本驱动的改进

  • 将复杂标准分解为子标准

  • 增强验证和证据标准

  • 明确范围、边界和约束

  • 纳入风险分析和安全约束

以医疗案例为例:

初始Rubric只要求“提到正确诊断”和“说明紧急性”——两个优秀回复都满足。

精炼后的Rubric新增标准:“明确指出需要紧急影像学检查(如增强CT或MRI/MRV)来确认诊断”,成功区分出了更好的那个。

这就是质的飞跃:从表面判断到深层验证标准。

产业意义与展望

这项研究为大模型对齐提供了全新视角:

理论指导实践:明确了奖励建模的优化方向——聚焦高奖励区域

方法可操作性强:基于评分准则的方法易于实施和解释

领域适应性好:在医疗等专业领域表现尤其出色

当然,研究也指出了当前的局限:

  • 简单的加权平均可能不是最优的分数聚合方式

对于大模型从业者来说,这项工作提供了一个清晰的方向:

不要试图在所有地方都完美,专注于准确区分顶尖回复,这才是对齐的关键。

海量资讯、精准解读,尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10