新智元报道
编辑:犀牛
【新智元导读】本文深入梳理了围绕DeepSeek-R1展开的多项复现研究,系统解析了监督微调(SFT)、强化学习(RL)以及奖励机制、数据构建等关键技术细节。
最近,推理语言模型(RLMs)已经成为主流。
最新发布的、性能最强的LLM大都是推理模型。
尤其是DeepSeek-R1的发布,更是引发了广泛的社会影响,同时也点燃了研究社区对推理的热情。
但是,DeepSeek-R1的一些实现细节还没有完全开源,比如DeepSeek-R1-Zero以及蒸馏的小模型等。
因此,许多复制DeepSeek-R1的研究应运而生(图1),试图通过相似的训练流程和完全开源的训练数据来重现DeepSeek-R1的优异性能。
这些研究探索了监督微调(SFT)和基于可验证奖励的强化学习(RLVR)的可行策略,重点关注数据准备和方法设计,产出了不少宝贵经验。
为此,本文总结了近期的这些复现研究,以启发未来的探索。
论文地址:https://arxiv.org/abs/2505.00551
本文的结构大致对应DeepSeek-R1的训练流程,介绍当前在SFT、RLVR以及其他增强推理能力技术方面的复制工作:
监督微调提升语言模型推理能力:研究团队全面梳理了通过监督微调(Supervised Fine-tuning, SFT)增强语言模型推理能力的相关研究。
用可验证奖励强化学习训练推理语言模型:研究团队介绍了近期通过可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards, RLVR)训练RLMs的研究,详细阐述了训练数据、学习算法和奖励系统设计。
推理语言模型的更多发展方向:研究团队注意到,尽管DeepSeek-R1推动了RLMs的训练,但仍有许多监督策略尚未探索。他们提出了RLMs的更多发展方向,包括奖励建模和偏好优化,并分析了当前RLMs的优缺点,例如强大的分布外泛化能力和偶尔的过度思考。
通过监督微调提升RLMs
推理数据集大多数从收集多样化领域的问题开始,例如数学、科学、编程和谜题,数据来源包括现有的基准测试或网络爬取。
在收集原始数据后,通常会进行多轮过滤以提升数据质量,包括:
去重:通过嵌入相似性或n-gram方法去除重复数据;
拒绝采样:剔除低质量数据;
真值验证:确保数据准确性。
为了保证数据的覆盖面和丰富性,许多数据集在选择过程中明确强调难度和多样性,通常使用启发式方法或模型通过率来优先选择较难的问题。
此外,大多数数据集依赖经过验证的思维链(COTs)或解决方案来确保正确性和质量。
验证方法因领域而异,例如:
数学问题通常通过Math Verify验证;
编程问题通过代码执行或单元测试验证;
通用任务则由大语言模型(LLM)作为评判者进行验证。
这种结合领域验证和选择性保留的方法,使数据管理人员能够提炼出高质量的推理轨迹,从而更好地支持监督微调。
虽然这些数据集覆盖多个领域,但如表1所示,大多数数据集主要集中在数学和编程任务上。涉及更广泛推理任务(如科学、逻辑谜题和开放性问题)的覆盖率仍然相对有限。
值得注意的例外包括DeepSeek-R1和AM,它们在数据收集和蒸馏过程中纳入了更广泛的领域,旨在培养更通用的推理能力。
长度分布
图2展示了数据集的token长度分布情况。
尽管这些数据集的长思维链(CoTs)都来源于同一个教师模型——DeepSeek-R1,但它们的分布却存在明显差异。
例如,AM和Synthetic-1的数据集倾向于较短的序列,而Light-R1和Open-R1的分布范围更广,尾部更长,这表明它们包含更多复杂问题,这些问题通常会引发更长的思维链。
图3中展示了常用数学推理数据集之间的交叉引用结构。该图清晰地呈现了数据集之间的依赖网络和共享数据,帮助研究人员更好地解读结果,避免重复的训练或评估设置。
图中箭头从源数据集指向包含其部分数据的目标数据集。以淡紫色高亮显示的数据集包含从DeepSeek-R1提取的思维链(Chain-of-Thought)轨迹
性能比较
在实践中,SFT阶段对于让基础模型从更强的模型中学习高质量推理轨迹至关重要。
表2展示了在常见数学推理基准(如AIME24/25和MATH500)上的SFT结果比较,突出不同数据集选择和初始模型检查点的影响。
虽然许多方法强调通过增加训练样本数量来提升性能,但LIMO和S1k-1.1表明,通过精心挑选的小规模数据集也能取得优异成果。
训练细节
对于复杂推理等长上下文任务,通常会调整模型配置中的RoPE缩放因子(θ)和最大上下文长度,以支持扩展的上下文能力。
例如,Open-R1将θ设为300,000,上下文长度设为32,768个token。常用的学习率包括1.0 × 10⁻⁵和5.0 × 10⁻⁵,批大小通常为96或128。
此外,通常采用打包(packing)技术来提高训练效率。
RLVR在推理语言模型中的应用
RL数据集
DeepSeek-R1-Zero通过独立的RLVR流程在推理和知识任务中取得了优异表现。其RLVR过程中使用的高质量精选数据集是成功的关键。
因此,多项复制研究探索了如何利用开源数据和强大模型高效创建训练数据集的策略。
这些数据集涵盖R训练中可验证的多种任务,主要聚焦于数学和编程问题解决的数据集。表3提供了这些数据集的统计概览。
RL组件
随着DeepSeek-R1-Zero和DeepSeek-R1的发布,DeepSeek展示了通过强化学习(RL)微调LLM以应对复杂推理任务的成功经验。
基于精心挑选的训练数据,相关研究主要集中在配置RL框架的关键部分,以实现卓越性能:采用高效的RL算法(如GRPO)以及设计奖励机制。
表4提供了这些研究方法的比较。
表4总结了多个竞争性开源 DeepSeek-R1 复制研究在强化学习验证任务(RLVR)中使用的算法和奖励设计方案。为了便于比较,DeepSeek-R1 系列模型的相关信息被单独列出
在基于结果-奖励的RL方法中,PPO和GRPO是最常用的微调大语言模型的算法。
有趣的是,近期的一些复制研究对这些方法进行了各种改进,针对特定目标优化了训练效果。
研究团队回顾了几种代表性的基于RL的大语言模型微调算法,包括 REINFORCE、PPO、GRPO及其变体。此外,他们还梳理了这些方法的改进及其背后的动机,旨在清晰概述基于结果-奖励的RL训练方法的技术进步。
奖励机制
奖励是RL训练的核心,因为它定义了优化的目标,引导模型的行为。
一个设计良好的奖励机制能提供清晰、一致的信号,帮助模型学习到有效的策略。
然而,奖励模型常常容易被“奖励欺骗”(reward hacking,指模型通过钻空子获得高分而非真正解决问题),因此近期研究更倾向于使用基于规则的结果奖励系统。
这些系统通常分为三类:
准确性奖励:准确性奖励评估回答是否正确,通常给正确回答打 1 分,错误回答打 0 分或 -1 分。
格式奖励:格式奖励鼓励回答遵循预定义的结构或推理格式,通常给正确格式打 1 分,偏离格式则打 0 分或 -1 分。
长度奖励:长度奖励影响模型回答的详尽程度。一些方法奖励生成特定长度的回答,而另一些方法则鼓励在保证准确性的前提下尽量简洁。
采样策略
直观来说,在训练过程中合理选择样本对RL的有效性至关重要。
一方面,课程学习方法通过逐步增加任务难度,提高了复杂样本的利用率。另一方面,合理使用拒绝采样技术可以提升样本效率并稳定训练。
RLVR在其他任务上的应用
通过RLVR,DeepSeek-R1的复杂推理能力显著增强,在复杂语境理解和问题解决等推理密集型任务中取得成功。
RLVR使大模型能够在无需人工指导的情况下,通过可验证的答案学习和执行任务,激发其复杂推理能力。
受此启发,多项研究探索了RLVR在不同任务中的复杂推理范式。
逻辑推理:TinyZero和Mini-R1尝试在倒计时游戏中重现DeepSeek R1的“灵光一现”时刻,使用简单的基于规则的奖励系统。
面向应用的实际任务:推理语言模型需要通过思考、规划和反思来学习处理现实世界的应用型任务。
超越监督的探索:通过强化学习过程,研究发现大模型展现出了令人惊喜且意想不到的能力。
这些结果凸显了复杂推理语言模型通过RL训练策略,超越监督数据资源甚至人类能力的潜力。
更多发展方向
虽然DeepSeek-R1的成功推进了RLMs的训练,但仍有许多监督策略有待探索。
推理增强的替代方法 :旨在解决传统 RLVR 在捕捉中间步骤和对齐人类期望方面的局限性。
主要方向包括:
过程级奖励建模 (Process-level Reward Modeling, PRM):对推理的中间步骤提供反馈,而非仅评估最终结果。例如rStar-Math使用过程偏好模型和自我演进,PRIME使用隐式PRM,仅依赖结果标签进行训练,更具可扩展性并减少奖励欺骗。
偏好优化策略 (Preference Optimization):特别是 直接偏好优化 (Direct Preference Optimization, DPO),相比PPO或GRPO计算资源需求更少。一些研究探索使用DPO提升推理能力,如Light-R1、Iterative DPO、RedStar、DPO-R1。
泛化性:RLMs在学习推理能力时,能够很好地泛化到域外任务。
持续预训练(例如在数学领域)能显著增强专业和通用推理能力。
监督微调 (SFT) 通过提供高质量示例和结构化归纳先验,对泛化能力至关重要,为后续强化学习奠定稳定基础。精心策划的高质量数据尤为重要。
强化学习 (RL) 展示了强大的域外泛化潜力,甚至超越了模仿学习。经过RL训练的模型可以在不同任务、语言和模态上泛化,例如Llama3-SWE-RL和RL-Poet。像AGRO这样整合On-policy和Off-policy经验的方法可以增强泛化能力。
安全性 :推理语言模型面临一些安全挑战,包括过度思考(生成过长推理链,增加成本,可能忽略环境反馈) 和奖励欺骗(模型利用奖励函数的漏洞或模糊性获取高分)。
自我演进过程引入了失控和未对齐的风险。
越狱攻击 (Jailbreaking) 是一个普遍关注的问题。推理增强的模型可能会牺牲安全性(“安全税”)。
应对措施包括改进算法设计、训练策略、对齐安全策略以及开发具有推理能力的防护模型。
多模态和多语言:
多模态推理语言模型:整合视觉、音频等多种模态。当前多模态模型的推理能力通常弱于单模态模型。将单模态推理能力迁移到多模态是前景广阔但具有挑战性的方向。
多语言推理语言模型:主要挑战在于某些语言资源的有限性。在英语中训练的推理能力向其他语言泛化程度有限。可能需要专门的能力来促进跨语言的洞察或“顿悟”。未来的研究需要专注于更高效的跨语言训练策略,特别是针对低资源语言。
结论
在本文中,研究团队全面概述了受DeepSeek-R1启发而进行的复现工作,特别重点关注了其背后的监督微调和强化学习方法。
他们探讨了开源项目如何整理指令微调数据集,如何实现基于结果奖励的强化学习策略,以及如何设计旨在增强模型推理能力的奖励系统。
除了总结当前各项工作的趋势之外,还对该领域未来充满希望的方向提出了自己的看法。这些方向包括将推理技能扩展到数学和编程任务之外,提升模型的安全性和可解释性,以及改进奖励机制以促进更复杂的推理行为。
团队希望本次综述不仅能捕捉到近期进展,还能为正在进行的研究提供坚实的基础,并标志着向实现通用人工智能迈出了更进一步。
参考资料:
https://arxiv.org/abs/2505.00551
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.