超越DeepSeek-R1,英伟达开源新王登顶!14万H100小时训练细节全曝光

新智元
06 May

导读:超越DeepSeek-R1的英伟达开源新王Llama-Nemotron,是怎么训练出来的?刚刚放出的论文,把一切细节毫无保留地全部揭秘了!

现在,英伟达Llama-Nemotron系列模型,正式超越DeepSeek-R1!

而且,这些模型已经全部开源了。

换句话说,在推理吞吐量和内存效率上显著超越DeepSeek-R1的一系列推理模型,已经开源可用了。

超越DeepSeek-R1的模型,究竟是怎么炼出的?

就在刚刚,英伟达发布了技术报告中,揭秘了模型训练的关键——

  • 利用合成数据监督微调+强化学习,全面提升模型的推理能力

  • 从头构建完善的后训练流程

上个月,英伟达正式官宣了的Llama-Nemotron 253B,一下子就让发布3天的Llama 4变成了「陪衬」。(后者还陷入了刷榜等「诚信危机」)

发布之后,英伟达的这一系列模型在业界引起不小的轰动。

根据人工分析智能指数,截至2025年4月,Llama-Nemotron-Ultra被认为是目前「最智能」的开源模型。

这次,英伟达一口气推出了Llama-Nemotron系列三个模型——LN-Nano 8B,LN-Super 49B和LN-Ultra 253B

值得一提的是,LN-Ultra不仅在性能上超越了DeepSeek-R1,还能在单个8xH100节点上运行,推理吞吐量更高

这些模型针对高吞吐量推理进行了优化,同时保持强大的推理能力和最多128K的上下文长度。

LN-Ultra在各类推理任务中展现出领先的开源模型性能LN-Ultra在各类推理任务中展现出领先的开源模型性能

并且,在全球AI开源届,英伟达首次推出了推理开关功能,用户只需通过系统提示词「detailed thinking on/off」就可以动态切换标准聊天模式和推理模式。

这种设计让模型既能满足日常通用需求,也能胜任复杂的多步骤推理,无需使用不同的模型或架构。

揭秘构建过程

Llama-Nemotron模型的构建,分为五个阶段。

第一阶段:利用神经架构搜索(NAS)在Llama 3系列模型基础上优化推理效率,并引入前馈网络融合(FFN Fusion)。

第二阶段:通过知识蒸馏和继续预训练来恢复模型性能。

第三阶段:进行有监督微调(SFT),结合标准指令数据和来自DeepSeek-R1等强大教师模型的推理过程,从而让模型具备多步骤推理能力。

第四阶段:在复杂的数学和STEM数据集上进行大规模强化学习,这是学生模型能够超越教师模型能力的关键一步。对于LN-Ultra,这一阶段在GPQA-D基准测试上带来了显著性能提升,确立其作为当前开源领域科学推理最强模型的地位。

为了支持如此大规模的强化学习训练,团队专门开发了新的训练框架,包含多项优化措施,其中最重要的是支持 FP8精度的生成能力。

最后一个阶段:简短的对齐训练,重点在于指令跟随和符合人类偏好。


全新架构设计:优化推理效率

借助神经架构搜索Puzzle框架,LN-Super和LN-Ultra优化了模型推理效率。

Puzzle能够在实际部署限制下,将大语言模型转化为更适配硬件运行的高效版本,如图3所示。

通过「逐块局部蒸馏」的方式,开发者利用Llama 3 Instruct构建了替代Transformer模块的库。

在这个过程中,每个模块都会被独立且并行地训练,逼近原始模块的功能,同时优化计算性能

这样,每个替代模块都具有特定的「精度-效率」权衡特性:有些模块虽然更高效,但可能会带来一定的质量下降,从而形成一种在计算成本与模型准确性之间的明确取舍。

这些模块的变体包括:

  • 注意力机制移除:某些模块完全省略了注意力机制,从而降低了计算量和KV缓存的内存消耗。

  • 可变的FFN维度:前馈网络的中间维度被调整,能以不同粒度对模型进行压缩。

在构建好模块库后,Puzzle会从每一层中选择一个模块,组装出一个完整的模型。

这个选择过程由混合整数规划(MIP)求解器控制,它会根据一系列约束条件(如硬件兼容性、最大允许延迟、内存预算或期望的推理吞吐量)来找出最优配置。

Puzzle框架概览Puzzle框架概览

垂直压缩与FFN融合

在LN-Ultra模型中,研究者引入了一项额外的压缩技术,称为FFN Fusion(前馈网络融合),用于减少模型的序列深度并提升推理延迟效率。

Puzzle在移除部分注意力层后,模型结构中出现的一种特性:模型中常会出现多个连续的FFN块。

FFN Fusion能识别出这些连续结构,并将其替换为更少但更宽、可并行执行的FFN层。

这种替换方式在不牺牲模型表达能力的前提下,减少了顺序计算的步骤,显著提升了计算资源的利用率——特别是在多GPU环境中,跨层通信开销不可忽视的情况下,效果尤为明显。

图4展示了在GPQA-Diamond准确率(%)与处理吞吐量(token/秒)之间的权衡。

值得注意的是,LN-Ultra始终在准确性和效率上优于DeepSeek-R1和Llama-3.1-405B,取得了准确性和效率的最佳平衡。

GPQA-Diamond模型的精确度与吞吐量对比GPQA-Diamond模型的精确度与吞吐量对比

NAS后训练:知识蒸馏与持续预训练

在神经架构搜索(NAS)阶段之后,LN-Super和LN-Ultra都进行了额外的训练,以提升模块之间的兼容性,并恢复在模块替换过程中可能出现的质量损失。

  • LN-Super使用Distillation Mix数据集,在知识蒸馏目标下训练了400亿个token。

  • LN-Ultra首先使用相同的蒸馏数据集进行知识蒸馏训练,训练了650亿个token;随后又在Nemotron-H第四阶段预训练数据集上继续训练了880亿个token。

这一最终的预训练步骤,使LN-Ultra不仅追平了参考模型Llama 3.1-405B-Instruct的表现,还在关键基准测试中实现了超越。

这就,表明通过简短的蒸馏与预训练,可以在激进的架构优化和高模型性能之间实现兼容

监督微调

想让Llama-Nemotron模型拥有超厉害的推理能力?

监督微调(Supervised Fine-Tuning,SFT)这一步简直就是「神助攻」。

前面的开发阶段,团队主要在研究怎么让模型架构更高效,怎么把海量知识塞进去。

而SFT就像给模型请了一位「私人教练」,专门针对特定任务的推理步骤,带着它从DeepSeek-R1这些「学霸」模型身上,偷师推理技巧。

不过要想让模型真正拥有扎实的推理功底,大规模、高质量的推理训练数据必不可少。

合成数据

研究者为监督微调精心整理了包含推理和非推理的数据样本。

对于推理样本,他们在系统指令中加入「detailed thinking on」(开启详细思考),而对于非推理样本,则使用「detailed thinking off」(关闭详细思考)。

这种设置,使模型能够在推理阶段根据提示内容切换推理行为。

为推理,精心准备了数学、代码等相关领域的合成数据。

为了训练模型遵循「推理开关」指令,研究者构建了成对的数据集,其中每个提示都对应一个带推理的回复和一个不带推理的回复。

这种配对方式,使模型能够根据系统指令学习调节其推理行为。

随后会依据标准答案或奖励模型对这些回复进行筛选。

微调流程

在指令微调数据上,所有模型的训练,均采用token级交叉熵损失。

在大多数训练设置中,推理数据和非推理数据会被混合在一起,形成训练批次,其中每个提示都会根据系统指令「detailed thinking on/off」的条件,与相应的响应配对。

延长训练至多轮周期能提升性能,对小模型尤为明显。

这次主要使用NeMo-Aligner来进行强化学习训练,支持GRPO以及异构模型的训练。

生成阶段使用vLLM实现,训练阶段则使用Megatron-LM

训练和推理阶段共用同一批GPU,在同一设备上完成。

整个训练过程中,他们共使用了72个节点,每个节点配备8张H100 GPU

生成阶段采用FP8精度,训练阶段采用BF16精度,优化器状态使用FP32

每个阶段维护一份独立的模型权重,并在每一步开始时进行同步。

强化学习:超越R1推理能力的关键

监督微调(SFT)可以让模型从强大的教师模型中提炼知识,从而获得出色的能力。

然而,知识蒸馏本质上为学生模型的性能设定了上限,特别是当学生模型的基础模型能力不超过教师模型时。

通过监督微调,LN-Ultra的性能可以接近DeepSeek-R1,但无法超越它。

为了使学生模型超越教师模型,大规模强化学习(RL)是一种可行的方法,因为它允许模型持续探索新的可能性并进行自我学习。

由于资源限制,研究者仅对LN-Ultra应用推理RL,结果得到超越教师模型的学生模型。

在整个推理强化学习训练过程中,在GPQA-Diamond数据集上,LN-Ultra的准确性在整个推理强化学习训练过程中,在GPQA-Diamond数据集上,LN-Ultra的准确性

训练流程

对于LN-Ultra,研究者通过大规模强化学习(RL)增强它的科学推理能力,采用DeepSeek-R1同款的分组相对策略优化(GRPO)算法。

整个训练过程大约需要14万H100小时,持续训练模型直至其在推理任务上实现收敛。

图5显示了训练过程中GPQA-Diamond的准确率得分。

奖励机制设计包含两类:

  • 准确性奖励:基于标准答案(数值/句子/段落),调用Llama-3.3-70B-Instruct模型判断预测结果匹配度

  • 格式奖励:遵循DeepSeek-AI的方案,强制模型在「详细思考」模式下用<think>标签包裹推理过程,非该模式时禁止出现此类标签

研究团队还对数据进行预处理,包括数据过滤和课程训练(curriculum training)。

  • 数据筛选:预先使用LN-Super对每个问题生成8条响应,剔除通过率≥75%的简单样本

  • 课程训练:采用基于通过率的渐进式批次分配(图6验证其有效性)

    • 动态分布:以高斯函数建模批次难度,初期侧重高通过率(简单)样本,后期转向低通过率(困难)样本

    • 填充逻辑:优先按目标分布分配样本,剩余容量从最大剩余样本池补充

    • 批内处理:同批次样本随机打乱以保持多样性

用于偏好优化的强化学习

在完成科学推理训练之后,研究者对LN-Super和LN-Ultra模型进行了一个简短的强化学习阶段,重点提升其指令跟随能力

研究者还使用RLHF对模型的通用帮助能力和聊天表现进行优化,同时保留了模型在数学、科学等其他领域的能力。

如表4所示,LN-Super在Arena Hard测试中取得了88.3的高分超越了专有模型如Claude 3.5 Sonnet和GPT-4o-2024-05-13,也优于体量更大的开源模型。

为了实现这一结果,他们采用了「在线RPO」(OnLine Reward-Policy Optimization)方法,最大化模型在HelpSteer2数据集上的预测奖励,奖励模型使用的是Llama-3.1-Nemotron-70B-Reward。

两轮在线RPO训练将Arena Hard得分从69.1提升到88.1

对于LN-Ultra,他们使用类似流程,但采用了GRPO

对于LN-Nano,他们进行了两轮离线RPO训练,使用基于策略生成的训练数据。

在第一轮中,结合推理类和非推理类数据,并配合适当的系统提示词,以优化模型的推理控制能力。第二轮则专注于提升指令跟随能力。

评估结果

研究者在两个基准类别上评估所有Llama-Nemotron模型的性能:推理任务和非推理任务。

推理类基准包括:AIME24和AIME25、GPQA-Diamond、LiveCodeBench以及MATH500。

非推理类基准包括:用于指令遵循评估的IFEval、用于函数调用工具使用评估的BFCL V2 Live以及用于评估对人类对话偏好对齐度的Arena-Hard。

表3显示,尽管模型体积较小,LN-Nano在所有推理类基准测试中都取得了出色的表现。

这表明,监督微调流程和精心策划的推理数据集,在将结构化推理能力迁移至小型模型方面是有效的。

表4将LN-Super与其参数规模相近的其他模型进行了对比,可见这个模型在推理任务和非推理任务中都表现出强劲的竞争力。

在「推理关闭」模式下,LN-Super的表现与其蒸馏来源模型Llama-3.3-70B相当;在「推理开启」模式下,则超越了其他竞品模型,例如DeepSeek-R1-Distilled-Llama-70B,在保持良好指令遵循能力的同时展现出强大的推理能力。

这些结果表明,LN-Super是一个兼具推理优化模型和非推理模型优点的通用模型,适用于日常助手型任务和结构化推理任务。

表5显示,LN-Ultra 在推理和非推理基准测试中,与所有现有的开源权重模型相比表现持平或更优。它在GPQA上达到了开源模型中的最先进水平,充分证明了英伟达研究者大规模强化学习训练方法的有效性。

与DeepSeek-R1需要使用8×H200的硬件配置不同,LN-Ultra专门优化为可在单个8×H100节点上高效运行,从而提供更高的推理吞吐量和部署效率。

从表5可见,LN-Ultra的SFT阶段已经在多个推理基准测试(包括GPQA和AIME)上接近或达到DeepSeek-R1的性能。

除了模型原本接受训练的推理和对话能力之外,他们还对模型在一个分布外任务

具体来说,模型在JudgeBench数据集上进行了测试,要求区分高质量与低质量的回答

如表6所示,新模型在该任务上表现优于当前顶尖的专有模型和开源模型

其中,LN-Ultra成为表现最好的开源模型,明显超过了 DeepSeek-R1,仅次于专有模型 o3-mini(high)。

此外,LN-Super 的表现也超过了o1-mini,这说明新模型在各类任务中具备很强的泛化能力

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10