10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

新智元报道

编辑：LRS

【新智元导读】无监督的熵最小化（EM）方法仅需一条未标注数据和约10步优化，就能显著提升大模型在推理任务上的表现，甚至超越依赖大量数据和复杂奖励机制的强化学习（RL）。EM通过优化模型的预测分布，增强其对正确答案的置信度，为大模型后训练提供了一种更高效简洁的新思路。

在具备强大的通用性能之后，当下大模型的研究方向已经转向了“如何解决特定且复杂的推理任务”，比如数学问题、分析物理现象或是构建编程逻辑。

要想达到更高的性能，除了海量文本的预训练之外，往往还需要进一步的后训练。

主流后训练方法是采用强化学习（RL），特别是结合可验证奖励的强化学习（RLVR）。

虽然基于RL的微调可以显著提升模型性能，但其十分依赖大规模、高质量的标注数据，其训练效果也取决于开发人员设计的复杂奖励函数，需要专家知识来最大化优势信号并防止模型“奖励作弊”。

此外，许多常用的RL算法（如PPO）需要额外的奖励模型，不仅增加了算法复杂性，多训练步骤和漫长的采样过程也会大幅提升计算开销。

最近，Ubiquant研究团队提出一项LLM后训练的突破性研究，用13,440组大模型训练实验对比证明了一件事：

使用使用无监督方法“单样本熵最小化”（One-shot Entropy Minimization, 简称One-shot EM），仅需一条未标注样本和约10步优化，即可在推理任务上达到甚至超越依赖成千上万条数据和精心设计的奖励机制的RL方法的效果。

论文链接：https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5

EM的核心理念是无需任何标注数据或外部监督来训练模型，仅依赖模型自身预测分布的熵（entropy）进行优化。

其有效性基于一个关键假设和一个简单直觉：如果一个模型本身足够有能力，那么当它对其预测结果更“自信”时，也更有可能是正确的。

具体来说，EM训练模型将其概率质量更多地集中在其最自信的输出上，即正确答案通常比错误答案具有更低的熵值。

通过优化目标来降低模型生成序列的熵，EM可以促使模型变得更加“自信”，从而强化其在预训练阶段已经获得的能力。

研究人员在论文中深入分析了one-shot EM的有效性，发现其与强化学习具有相似的核心特性，但从logits偏移角度来看，其对模型行为的引导方向相反。

广泛实验表明，“温度”是影响EM训练和推理表现的关键因素，且在推理阶段与强化学习呈现相反趋势。

EM本质上更像是一种“分布塑形工具”，而非传统的学习方法。

熵最小化

具体来说，熵最小化方法的核心公式为：

设表示一个预训练自回归语言模型pθ的词汇表，该模型由参数θ定义。

给定一个输入提示x（例如一个问题或问题描述），模型根据其当前策略自回归地生成一个响应序列 y=(y1,y2,…,yT)，其中T是生成序列的长度。核心思想是通过在每一步生成时最小化标记级别的熵，来减少模型对其自身预测的不确定性。

时间步t的条件熵定义为：

单个输入x的总体EM损失由以下公式给出：

简单而言，该损失函数鼓励模型提高对自身预测的信心，无需依赖外部监督信号或奖励函数。

由于其完全依赖于模型本身而非外部信号，和预训练目标完全兼容，在有效简化优化过程的同时可能带来潜在对于模型内一致性的破坏。

只用一条样本就足够！

熵最小化（EM）的成功依赖于“模型的预测不确定性”可以作为“有意义的训练信号”。

研究人员采用了一种基于“模型表现方差”的样本筛选方法，来选择更具有信息量的输入提示：通过计算模型多次生成结果的准确性方差，挑选模型表现不稳定的样本进行训练。

这种方差量化了模型对给定输入的预测不一致性：低方差意味着要么对正确性有高度信心（接近完美的成功），要么对失败有高度信心（完全错误）。

相反，表现方差大的样本更能有效驱动模型降低熵值、明确决策边界，这也是为何只用一条高质量样本，就能快速推动模型的推理性能。

研究人员使用的唯一一条样本如下：

Problem: The pressure P exerted by wind on a sail varies jointly as the area A of the sail and the cube of the wind’s velocity V. When the velocity is 8 miles per hour, the pressure on a sail of 2 square feet is 4 pounds. Find the wind velocity when the pressure on 4 square feet of sail is 32 pounds.

Solution: 12.8

以小博大，性能超越RL

研究人员在多个数学推理任务上测试了熵最小化（EM）的效果，结果显示，仅一条样本、10步训练，EM方法即大幅提高了Qwen2.5-Math-7B的性能：

MATH500测试集：准确率从53%提升到78.8%，提升25.8个百分点；

Minerva Math测试集：准确率从11%提升到35.3%，提升24.3个百分点；

AMC23测试集：准确率从44.1%提升到70.3%，提升26.2个百分点。

即使只使用一个样本和极少的训练步骤（仅仅10步），EM方法极大地缩小了Qwen2.5-Math-7B与Prime-Zero-7B和RLVR-GRPO等先进的基于RL的模型之间的差距。

特别是在AMC23基准测试中，经过EM增强的Qwen2.5-Math-7B达到了具有竞争力的70.3分，逼近领先的RL模型这些结果清晰地表明，熵最小化（EM），尽管比典型的强化学习方法更简单、数据效率更高，但在增强基础语言模型在数学推理任务上的性能方面，具有巨大的潜力。

那么为什么熵最小化能这么有效果呢？熵在模型的训练和推理过程中起到什么样的作用呢？

EM vs.RL：置信度与Logits偏移

大型语言模型在生成每个token时，会先产生一组未经归一化的分数Logits，随后通过Softmax函数转换为概率分布，决定了下一个token的选择。

因此，Logits的分布形态直接反映了模型对其预测的“置信度”和对不同token的偏好。

通过对模型Logits分布的深入分析发现，熵最小化（EM）和强化学习（RL）对模型内部置信度的影响方向截然相反。

EM：向右偏移，强化自身自信

研究表明，经过EM训练的模型，其Logits分布会显著地向右偏移，意味着模型在生成过程中，会反复强化自身的预测置信度。

模型将更多的概率质量集中在少数它认为“确定”的token上，使得原本高概率的区域进一步向高分区间扩展。

直观来说，这让模型对其最看好的答案变得更加“自信”。

在生成和采样时，这种向右的Logits偏移是有益的，增加了高概率的候选token数量，扩展了模型能够遵循的“高概率路径”，从而潜在地增强了模型的整体生成能力。

实验中，EM 训练后的模型在评估时表现出与采样温度的相反趋势：随着温度升高，性能下降。

可以用贪婪解码（即总是选择概率最高的token）来解释——EM训练将概率质量高度集中在少数确定性token上，贪婪解码在这种分布下变得非常有效。

RL：向左偏移，受真实信号引导

与EM不同，经过RL训练的模型则表现出Logits分布向左偏移的趋势。

研究人员推测，这是受到训练过程中“真实”（ground-truth）信号的影响。

RL通过外部奖励函数来调整模型的行为，会惩罚那些模型预测概率很高但与地面真实不符的token

通过对这些高概率但不正确的token进行降权（reranking），RL降低了其排序位置，从而导致整体Logits分布向左偏移。

RL训练后，即使经过reranking，这些原本低概率的token往往只占据概率分布中的中间位置，需要更高的采样温度才能被选中。

因此，RL训练的模型表现出与EM相反的趋势：性能随着采样温度的升高而提升。

虽然RL的目标是提升模型性能，但其导致的Logits左移被认为对大型语言模型的生成过程有害，减少了采样时的高概率路径数量，可能会削弱模型的整体性能。

Logits偏移的差异，可以通过分析Logits分布的偏度（Skewness）进行量化。

EM训练显著提高了Logits分布的偏度，呈现右偏；而RL训练则显著降低了偏度，甚至导致左偏。

即使在EM后再进行RL训练，Logits分布的偏度也会从EM后的高值有所下降，遵循RL的趋势，其差异和塑造了EM和RL完全不同的推理采样策略。

在评估阶段，随着采样温度的升高，EM模型在四个数学推理基准测试上的平均表现持续下降。

EM 更像是一个分布塑造工具（distribution shaping tool），通过强化模型自身的内在一致性来提升置信度，从而重塑了现有知识的分布。

“过度自信”的陷阱与随机性

研究结果也揭示了其高效性背后隐藏的“过度自信”现象。

训练初期，EM训练损失迅速下降，模型的数学推理性能也随之提升然而，大约在训练进行到10步左右时，模型的性能达到了顶峰。

令人意外的是，即使EM训练损失继续下降，模型的数学推理性能反而开始下降。

这种“过度自信”现象可能是由于持续的EM训练过度放大了模型在推理过程中对其自身生成 token 的置信度。

持续的EM训练可能会过度强化模型已有的先验偏差，导致输出结果过度集中于狭窄、过度自信的 token 分布，从而加剧算法偏差并导致输出显著偏离正确路径，最终损害了模型的实际推理性能。

熵最小化的不稳定性和过度自信的损害也体现在训练时的温度上。

经过EM训练的模型在四个数学推理基准上的平均性能随着生成温度的升高总体呈现上升趋势。

平均性能的最大值最初增加，随后在温度约为0.5时开始下降。较高的温度带来更好的平均推理能力，而适中的温度（如0.5）则导致更大的性能波动，从而为更高的峰值性能创造了机会。

EM训练同时展现出显著的随机性，即便设置完全相同，四个数学推理基准测试的平均得分也会因种子不同而相差高达两倍。

EM适合哪些场景？

研究表明，熵最小化（EM）尤其适合以下三种场景。

尚未进行大量RL调优的基础模型或仅经过 SFT 的模型

研究人员在多个不同的基础模型上评估了one-shot EM的效果，结果表明，仅通过单个样本和极少的训练步数，EM 能够持续且显著地提升这些模型在数学推理基准测试上的性能。

然而，当应用于已经过大量RL广泛微调的模型（如 SimpleRL-Zoo）时，One-shot EM反而可能导致性能下降，与在RL之后应用EM可能锁定狭窄、过度自信的输出模式并损害性能的发现一致。

需要快速部署、没有充足标注数据或资源有限的场景

EM的核心优势在于其极高的效率和对数据的极低需求，研究发现，One-shotEM实际上比 Multi-shotEM表现出更好的性能和更强的泛化能力。

尽管Multi-shot使用了更多的样本，但One-shot EM通过单个样本实现了更稳定和细致的优化，有效减少了样本偏差并缩小了输出方差，进一步强化了EM在数据极度稀缺场景下的吸引力。

无代价能力增强

熵最小化（EM）可以作为现有后训练范式的有力补充甚至起点，将EM应用在RL之前能够带来有效增益，使其成为RL的有效“启用基础”。

EM通过其独特的Logits右偏移效应提升模型的自信度，增强模型的推理能力，并可能促进后续RL训练的更快收敛和更稳定优化。

对于已经深度调优过的RL模型，再使用EM反而可能带来性能的下降。

行业前景与未来研究

One-shot EM的成功，不仅在于其惊人的数据和计算效率，还在于它为LLM后训练提供了一种完全无监督的、可落地的替代方案，不需要人工标注数据，不需要构建复杂的奖励模型，极大地降低了后训练的门槛和成本。

这项研究同样为未来的探索打开了广阔的空间：

训练稳定性与鲁棒性

One-shot EM虽然高效，但也伴随超参数敏感性和一定的训练不稳定性。

研究发现，持续的EM训练可能会导致模型“过度自信”，反而损害性能。

未来的工作需要探索早停标准或自适应调度机制，以及减少训练的随机性，以进一步稳定和提升EM的效果。

泛化能力与跨领域应用

EM在数学推理任务上表现出色，但能否泛化到对话、摘要、代码生成等其他领域，还需要进一步的实验验证。

同时，当前EM在Token级别操作，未来的研究可以探索在序列或语义单元上应用结构化熵，或引入任务特定先验知识和自适应熵正则化，以释放更多潜力。

与现有技术的融合

EM作为一种分布塑造工具，与SFT、RLHF等现有后训练技术概念上正交。

研究发现，在RL之前应用EM可以带来有益的对数分布偏移，未来的工作可以系统地研究不同的EM与RL结合的时间表、课程策略及其相互作用，探索构建更强大混合方法的可能性。

EM甚至可以作为SFT或RLHF过程中的一种正则化策略，或作为现有模型的“信心压缩”层。

置信度校准的深入研究

研究结果暗示，EM通过强化高概率推理路径来增强模型的置信度，表明EM可能是一种轻量级的信心校准方法。未来的研究需要开发更精确的评估协议来量化EM的校准效应，深入理解其背后的机制。

参考资料：

https://www.notion.so/One-shot-Entropy-Minimization-202606db813b80639773f850f39246a5?source=copy_link

海量资讯、精准解读，尽在新浪财经APP

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Tiger Brokers

10步优化超越强化学习，仅需1条未标注数据！后训练强势破局

Most Discussed