比GPT-5还准?AIME25飙到99.9%刷屏,开源模型首次

新智元
Aug 23

编辑:定慧 好困

【新智元导读】DeepConf由Meta AI与加州大学圣地亚哥分校提出,核心思路是让大模型在推理过程中实时监控置信度,低置信度路径被动态淘汰,高置信度路径则加权投票,从而兼顾准确率与效率。在AIME 2025上,它首次让开源模型无需外部工具便实现99.9%正确率,同时削减85%生成token。

如何让模型在思考时更聪明、更高效,还能对答案有把握?

最近,Meta AI与加州大学圣地亚哥分校的研究团队给出了一个令人振奋的答案——Deep Think with Confidence(DeepConf),让模型自信的深度思考。

论文地址:https://arxiv.org/pdf/2508.15260

项目主页:https://jiaweizzhao.github.io/deepconf

这项新方法通过并行思考与“置信度筛选”,不仅让模型在国际顶尖数学竞赛AIME 2025上拿下了高达99.9%的正确率。

可以说,这是首次利用开源模型在AIME 2025上实现99.9%的准确率,并且不使用任何工具!

并且在保持高质量推理的同时,将生成的token数量削减了84.7%

DeepConf还为并行思考(parallel thinking)带来了多项硬核优势:

性能飙升:在各类模型与数据集上,准确率平均提升约10%

极致高效:生成token数量锐减高达85%

即插即用:兼容任何现有模型——无需额外训练(也无需进行超参数微调!)

轻松部署:在vLLM中仅需约50行代码即可集成

以DeepConf在HMMT 25(哈佛–麻省理工数学竞赛)的第11道题目上的推理过程为例。

核心思想是DeepConf通过“置信度信号”筛选推理路径,从而得到高质量答案,并在效率与准确率之间取得平衡。

横轴(token index):表示模型生成的推理步骤(随着token逐步增加)。

纵轴(confidence):表示每条推理路径在该步骤上的置信度水平。

绿色曲线:表示不同推理路径的置信度轨迹,越深的绿色表示置信度越高。

红色叉叉:低于置信度阈值的推理路径,被动态筛除。

绿色对勾:最终被保留下来的高置信度路径。

最终表决:这些路径在基于置信度加权的多数表决下,最终得出统一答案:29。

DeepConf在生成过程中,会持续监控推理路径的置信度,低置信度路径被及时淘汰,只保留“更有把握”的路径,提升整体准确性。

通过准确率对比曲线,上图可以看出纵轴是accuracy(准确率),黄色曲线(DeepConf)比蓝色曲线(标准方法)明显更高。

表明DeepConf在相同投票规模下能达到更高的准确率。

下图横轴是token数量(推理所需的计算成本),黄色曲线在准确率保持较高的同时,token消耗明显更少。

表明DeepConf大幅减少了无效token的生成,推理效率更优。

DeepConf让模型不再“胡思乱想”,而是高效地走在高置信度的推理轨道上。

DeepConf支持两种工作模式:

离线模式:根据置信度筛选已完成的推理路径,然后根据质量对投票进行加权。

在线模式:当置信度实时降至阈值以下时,立即停止生成。

DeepConf的秘诀是什么?

其实,LLM知道自己何时开始不确定的,只是大家一直没有认真关注过他们的“思考过程”。

之前的方法在完整生成之后使用置信度/熵用于测试时和强化学习(RL)。

DeepConf的方法不同,不是在完成后,而是在生成过程中捕捉推理错误。

DeepConf实时监控“局部置信度”,在错误的推理路径消耗数千个token之前及时终止。

只有高质量、高置信度的推理路径才能保留下来!

DeepConf是怎样“用置信度筛选、用置信度投票”?

这张图展示了DeepConf在离线思考时的核心机制:

它先判断哪些推理路径值得信赖,把不靠谱的路径提前剔除,再让靠谱的路径进行加权投票,从而得到一个更准确、更高效的最终答案。

首先是每一token“有多确定”。

当模型在写推理步骤时,其实每个词(token)背后都有一个“信心值”。

如果模型觉得“这一步答案很靠谱”,信心值就高。如果它自己都拿不准,这个信心值就会低。

上图里用不同深浅的绿色和红色标出来:绿色=更自信,红色=不自信。

其次,不光要看单token,还要看整体趋势。

DeepConf不只看某一个词,而是会滑动窗口:看看一小段话里的平均信心值,衡量“这段话整体是否靠谱”。

重点看看最后几句话的信心值,因为最终答案、最终结论往往决定于结尾。

DeepConf也会记下这条推理链里最差的一步,如果中间有明显“翻车”,这条路径就不太可靠。

这样一来,每条完整的推理链路都会得到一个综合的“置信度分数”。

最后,是先淘汰,再投票。

当模型并行生成很多条不同的推理路径时:

第一步:过滤,把“置信度分数”排序,最差的10%直接丢掉,避免浪费。

第二步:投票,在剩下的推理链里,不是简单数票,而是按照置信度加权投票。

也就是说:一条高置信度的路径,它的意见分量更大;低置信度的路径,即便答案一样,也不会拉高太多票重。

最后看一下结果,在图的右边可以看到:有的路径说“答案是109”,有的说“答案是103、104、98”。

但由于支持“109”的路径更多、而且置信度更高,所以最终投票选出了109作为答案。

成绩刷爆99.9%

比GPT-5还高

离线模式结果:在AIME 2025上达到99.9%的准确率(基线为97%)!

在5个模型×5个数据集上实现普适性增益。

在所有设置下均取得约10%的稳定准确率提升。

在线模式结果:在所有基准测试中节省33%-85%的token!

在AIME 2025基准测试中,使用GPT-OSS-120B,在减少85%的token消耗下,仍达到97.9%的准确率。

该方法适用于从8B到120B的各类开源模型——在不牺牲质量的前提下实现实时高效。

在离线环境中对置信度度量进行基准测试。报告的数值为准确率(%)。

Cons@512和mean@512分别表示使用512条推理轨迹进行的多数投票结果,以及平均置信度的均值。所有实验均重复进行了64次。

在在线环境中对DeepConf进行基准测试。

在投票规模预算为512的条件下,报告多数投票方法与DeepConf(高/低)的方法的准确率(%)以及生成的token数量(×10⁸)。

基于置信度的深度思考

研究者的思考是:到底怎么把“置信度”用得更巧妙,让模型既想得更准,又想得更快呢?

正如前文所述,这里可以分成两个使用场景:

离线思考:等模型把一整条推理路径都写完了,再回头去评估每条路径的置信度,把靠谱的结果聚合在一起。这样做的好处是能最大化提升答案的准确性

在线思考:在模型一步步生成推理的过程中,就实时参考置信度。如果发现某条思路不靠谱,可以及时停掉,避免浪费算力。这样能边走边筛选,提升效率甚至精度

离线思考

在离线思考模式下,每个问题的所有推理路径均已生成。

此时的核心挑战是:如何聚合来自多条路径的信息,从而更准确地确定最终答案。

针对这一点,研究人员采用了标准的多数投票(majority voting)方法。

多数投票(Majority Voting)

在标准的多数投票中,每条推理路径得出的最终答案对最终决策的贡献是均等的。

设T为所有已生成路径的集合,对于任意路径t∈T,设answer(t)为从该路径中提取的答案文本。

那么,每个候选答案a的票数为:

置信度加权多数投票

这个方法不再均等对待每条路径的投票,而是依据其关联路径的置信度,为每个最终答案赋予权重。

对于每个候选答案a,它的总投票权会被重定义为:

置信度过滤

在加权多数投票的基础上,还需要应用置信度过滤,才能在将投票更集中于高置信度的推理路径。

具体来说就是,通过路径的置信度分数,筛选出排序前η%的路径,从而确保只有最可靠的路径参与最终答案的决定。

选择前10%:专注于置信度最高的少数路径。适用于少数路径就能解决问题的场景,但风险是如果模型存在偏见,容易选错答案。

选择前90%:纳入更广泛的路径。这种方法能保持多样性、减少模型偏见,在各路径置信度相差不大时尤其稳健。

图3阐释了各种置信度度量方法以及基于置信度的离线思考的工作原理。

算法1则提供了该算法的详细实现。

在线思考

在线思考模式通过在生成过程中实时评估推理路径的质量,来动态终止低质量的路径,进而确保其在后续的置信度过滤阶段大概率能被排除。

对此,研究人员提出了两种基于最低分组置信度,并会自适应地中止生成过程并调整推理路径的预算的方法:DeepConf-low和DeepConf-high。

其中,共包含两大核心组件:离线预热与自适应采样。

离线预热(Offline Warmup)

DeepConf需要一个离线预热阶段,以便为在线决策过程建立停止阈值s。

对于每个新的提示词,首先生成Ninit条推理路径(例如,Ninit=16)。

停止阈值s定义为:

在所有配置下,DeepConf-low均统一采用前η=10%的策略,而DeepConf-high则统一采用前η=90%的策略。

在在线生成过程中,一旦某条推理路径的置信度低于预热阶段的数据所设定的、能够筛选出置信度排序前η%路径的最低门槛,生成过程就会被终止。

自适应采样(Adaptive Sampling)

在DeepConf中,所有方法都采用了自适应采样,如此就可以根据问题难度动态调整所生成推理路径的数量。

问题难度通过已生成路径之间的一致性程度来评估,其量化方式为多数投票权重与总投票权重的比值:

若β

由于采用的是最低分组置信度,一个足够大的预热集便能产生对停止阈值s的精确估计。

因此,任何被在线终止的路径,其分组置信度必然低于s,也就会被离线过滤器所排除。

这样,在线流程便能近似于离线的最低分组置信度策略,并且随着Ninit的增加,其准确率会逼近离线策略的准确率。

图4中阐释了在线生成的过程。

算法2则提供了该算法的详细实现。

具体过程,我们就用上图里的这道“勾股三元组计数”问题举个例子。

DeepConf要在生成推理的同时判断:哪条思路靠谱、该继续;哪条思路不靠谱、该尽早停,从而少花token、又更准。

两个阶段:先定阈值,再在线筛

1. Offline Warm-up(上图右侧,离线预热)

先离线跑几条完整的推理轨迹(Trace 1~5),给每条算一个“整体有多靠谱”的分数。

按分数做一次置信度过滤,好的轨迹在上方(绿色),差的在下方(红色)。

据此确定一个停止阈值s(图中绿色箭头标注)。

简单来说就是低于 s 的,通常是不值得继续的推理。

这一步就像“热身+标定”,模型把“该不该停”的门槛先定好。

2. Online Generation(上图中间,在线生成)

正式解题时,同时展开多条并行思路(多行的方块序列)。

对每条思路,系统滚动地评估“这段话最近一小段的可靠度”(图中方块从左到右代表一步步的生成)。

左下 & 右下的小曲线各自表示模型的“把握”程度。

左下绿曲线表示模型对接下来的词更“有把握”,示例文本是正经的数学推理(如“勾股三元组公式…”),这类内容通常被保留。

右下红曲线表示模型在犹豫或“自我怀疑”,示例文本是“让我再想想、回头检查一下…”,这类犹豫/兜圈子的片段常被判为低置信度,从而触发在线早停。

先离线确定“可靠度阈值s”,再在线用s给并行思路“边走边检查”。

不靠谱就当场叫停,靠谱的继续前进。这样就能做到既快又准了。

作者介绍

Yichao Fu

论文一作Yichao Fu是加州大学圣地亚哥分校(UC San Diego)计算机科学与工程系的博士生,师从张昊教授,也就是老朋友Hao AI Lab的负责人。

此前,他在浙江大学获得计算机科学学士学位。

他的研究兴趣主要为分布式系统、机器学习系统以及高效机器学习算法,近期专注于为LLM的推理过程设计并优化算法与系统。

他参与的项目包括:Lookahead Decoding、vllm-ltr和Dynasor。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10