相信使用过 DeepSeek-R1 模型的人,对于它在给出答案之前的思考过程并不陌生,这也是包含 DeepSeek-R1 在内的大型推理模型(LRM,Large Reasoning Model)备受推崇的原因之一。
然而,由苹果公司六位研究人员组成的团队却对此提出了质疑。通过让模型解答各种谜题,研究团队发现 DeepSeek-R1、o3-mini 和 Claude-3.7-Sonnet-Thinking 这几款前沿大型推理模型在超过某一复杂度阈值之后,它们的准确率会出现全面崩溃。
图 | 相关论文(来源:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf)
值得注意的是,苹果机器学习研究高级总监萨米·本吉奥(Samy Bengio)是本次论文的共同作者。他不仅是图灵奖得主约书亚·本吉奥(Yoshua Bengio)的弟弟,还曾是 Google Brain 团队的首批成员之一。
图 | 相关论文的六位作者,右二为萨米·本吉奥(Samy Bengio)(来源:资料图)
X 上有一名网友总结称,苹果这是当了一次加里·马库斯(Gary Marcus),其实加里·马库斯本人也在领英发帖肯定了苹果这篇论文。他写道:“苹果公司最新发表的关于大语言模型中‘推理’能力的论文颇具震撼力。我在一篇周末长文中解释了其中的原因(并探讨了一种可能的反对意见),以说明为何大家其实不应感到太过惊讶。”
在加里·马库斯的“周末长文”里他写道:“这篇苹果公司的新论文进一步佐证了我本人的批评观点:即便最新研发的所谓‘推理模型’已经迭代超越 o1 版本,但在汉诺塔等经典问题上,它们依然无法实现分布外可靠推理。对于那些寄希望于‘推理能力’或‘推理时计算’能让大语言模型重回正轨、摆脱单纯规模扩张却屡屡失败(始终无法产出配得上‘GPT-5’名号的技术突破)的研究者而言,这无疑是个坏消息。”
(来源:https://garymarcus.substack.com/p/a-knockout-blow-for-llms)
那么,这到底是“坏消息”还是“好消息”,先从苹果这篇论文的详情说起。
可以完成多达 100 个正确动作,却无法给出超过 5 步的正确操作
研究中,本次来自苹果的研究团队发现了三种不同的推理模式:在低复杂度任务中,标准大语言模型的表现优于大型推理模型;在中等复杂度任务中,大型推理模型表现更加出色;而在高复杂度任务中,两类模型均无法有效完成任务。
随着问题接近临界复杂度,推理所需的努力反而出现了反直觉式的减少,这表明大型推理模型在计算规模的扩展上可能存在一种固有上限。
研究团队表示,这些见解对有关大型推理模型能力的主流假设提出了挑战,并表明当前方法可能在实现可泛化推理上存在根本性障碍。
最值得注意的是,研究团队观察到了大型推理模型在执行精确计算方面的局限性。例如,当为模型提供数学益智游戏汉诺塔的求解算法时,它们在这个问题上的性能并没有提高。
此外,对模型首次失误步骤的深入分析揭示了令人意外的行为模式。例如,模型可以在汉诺塔中完成多达 100 个正确的动作,但在逻辑推理游戏渡河谜题中却无法给出超过 5 步的正确操作。
总的来说,研究团队认为这篇论文既凸显了现有大型推理模型的优势,也揭示了其局限性,主要研究结论有以下五个:
其一,研究团队对当前大型推理模型在既定数学基准上的评估范式提出质疑,并利用算法谜题环境设计了一个可控实验测试平台。
其二,研究团队的实验表明,即使是最先进的大型推理模型(如 o3-mini、DeepSeek-R1、Claude-3.7-Sonnet-Thinking)也依然未能发展出可泛化的问题解决能力。在不同环境中,当问题复杂度超过一定阈值时,其准确率最终会降至零。
其三,研究团队发现大型推理模型在推理能力上存在一个与问题复杂度相关的扩展极限,这一点可以从达到某个复杂度点后思维 token 数量呈现反直觉的下降趋势中得到证实。
其四,研究团队对基于最终准确率的当前评估范式提出质疑,分析显示随着问题复杂度增加,与错误解相比,正确解在推理过程中出现在更靠后的位置。
其五,研究团队揭示了大型推理模型在执行精确计算能力方面的惊人局限,包括它们无法从显式算法中获益,以及在不同谜题类型中推理的不一致性等。
大型推理模型的自我修正能力有限
据了解,大型推理模型——是由大语言模型衍生出专门针对推理任务优化的新变体。
这些模型属于新型技术产物,其核心特征在于独特的“思维”机制,例如具备自我反思能力的思维链(CoT,Chain-of-Thought),并在多项推理基准测试中展现出卓越性能。
这些模型的涌现,标志着大语言模型处理复杂推理与解决问题的方式可能出现了范式转变。有研究者认为,这代表着向更通用的人工智能能力迈出了重要一步。
尽管已经存在这些观点和性能进步,但大型推理模型的基本优势和局限性仍未得到充分理解。一个仍未得到解答的关键问题是:这些大型推理模型是否具备泛化推理能力?还是它们只是在利用不同形式的模式匹配?
随着问题复杂度的增加,它们的性能会如何变化?在给定相同推理 token 计算预算的情况下,它们与不具备“思考”机制的标准大语言模型相比表现到底如何?
最重要的是,当前推理方法的固有局限性是什么?要实现更强大的推理能力可能需要哪些改进?
研究团队认为,当前评估范式的局限性导致人们缺乏对于这些问题的系统性分析。现有评估主要侧重于既定的数学基准和编码基准。这些基准固然具备一定价值,但是往往存在数据污染问题,而且无法在不同场景和复杂度下提供可控的实验条件。
为了更严格地理解这些模型的推理行为,研究团队认为需要一个能够进行受控实验的环境。
为此,他们并没有采用类似于数学题这样的标准基准,而是采用了可控的谜题环境,即通过在保留核心逻辑的同时调整谜题元素,以便能够系统地改变复杂度,并能检查解决方案过程和内部推理过程。
(来源:资料图)
这些谜题具有以下特点:
(1)能够提供对于复杂度的精细控制;
(2)避免现有基准中常见的污染;
(3)仅需依赖明确给定的规则,强调算法化推理能力;
(4)支持基于模拟器的严格评估,能够实现精确的解决方案检查和详细的故障分析。
通过实证研究,他们揭示了关于当前大型推理模型的几个关键发现:
首先,尽管大型推理模型通过强化学习能够学习复杂的自我反思机制,但它们未能为规划任务开发出可泛化的问题解决能力,在超过一定的复杂度阈值后,性能会降至零。
其次,研究团队在等效推理计算下对大型推理模型和标准大模型的比较揭示了三种不同的推理机制。
第一种机制是:对于更简单、组合性较低的问题,标准大模型表现出更高的效率和准确性。
第二种机制是:随着问题复杂度的适度增加,大型推理模型获得了优势。
第三种机制是:当问题随着组合深度的增加而变得复杂时,两类模型都经历了彻头彻尾的性能崩溃。
(来源:资料图)
值得注意的是,在接近这一失效临界点时,尽管大型推理模型的运行远未达到生成长度限制,但随着问题复杂度的增加,它们开始减少推理投入(以推理时的 tokens 数量衡量)。
(来源:资料图)
这表明,大型推理模型的推理能力存在一个根本性限制:其推理时间会随着问题复杂度的增长而显著增加。
此外,通过对中间推理轨迹的分析,研究团队发现了与问题复杂度相关的规律性现象,即在较简单的问题中,推理模型往往能快速找到正确解,但却仍会低效地继续探索错误选项,这种现象便是人们常说的“过度思考”。
在中等复杂度的问题中,模型需要经过对大量错误路径的广泛探索后,才能找到正确解。而超过一定的复杂度阈值,模型完全无法找到正确解。
北京邮电大学副教授白婷告诉 DeepTech,跟人类思维方式相近,对于复杂问题,虽然不知道什么是正确的答案,但是很多时候知道什么是不正确的。具体而言,这跟求解空间大小有关系,简单问题的求解空间因逻辑链条简短、特征匹配度高,正确解往往天然处于思维路径的前端,而复杂问题的解空间因涉及多维度变量耦合、逻辑层级嵌套而呈现指数级膨胀,求解空间庞大,客观上表现为思维序列中的相对后置性。
(来源:资料图)
推理模型的“思维”内部发生了什么?
研究中,大多数实验都是在推理模型及对应的非推理模型上进行的,例如 Claude 3.7 Sonnet(有推理/无推理)和 DeepSeek-R1/V3。研究团队选择这些模型是因为与 OpenAI 的 o 系列等模型不同的是,它们允许访问思维 token。
对于每个谜题实例,研究团队生成 25 个样本,并报告了每个模型的平均性能。
为了更深入地了解推理模型的思考过程,研究团队对它们的推理痕迹进行了细致的分析。
期间,他们通过谜题实验环境的构建,实现了对模型最终答案之外的深度解析,从而能够对其生成的推理轨迹(即“思考过程”)进行更精细的观测与分析。
具体来说,他们借助谜题模拟器,对模型思维过程中探索的中间解进行了提取与分析。
随后,他们考察了这些中解的模式和特征、相对于推理过程中顺序位置的正确性,以及这些模式如何随着问题复杂度的增加而演变。
对于这一分析,研究团队重点关注了 Claude 3.7 Sonnet 推理模型在谜题组实验中产生的推理痕迹。
对于痕迹中确定的每个中间解法,研究团队记录了以下内容:(1)其在推理轨迹中的相对位置(按总思维长度归一化),(2)经研究团队的谜题模拟器验证的其正确性,(3)相应问题的复杂度。
这使得研究团队能够描述整个推理过程中解决方案形成的进展和准确性。
图 | “思考中”中间解的位置、正确性和所有谜题环境中问题复杂度之间的关系(来源:资料图)
研究团队发现,对于更简单的问题,推理模型通常会在思考早期找到正确解,但随后会继续探索不正确的解决方法。
与正确解(绿色)相比,错误解(红色)的分布明显向思维链末端偏移。随着问题复杂程度适度增加,这一趋势发生逆转:模型首先探索错误解,且大多在思考后期才得出正确解。这一次,与正确解(绿色)相比,错误解(红色)的分布更向下偏移。
最后,对于复杂度更高的问题,模型开始出现崩溃现象,这意味着模型在思考过程中无法生成任何正确解。
下图呈现了在汉诺塔环境中,对思维序列分段(区间)内解的准确性进行的补充分析。
(来源:资料图)
可以观察到,对于较简单的问题(较小的 N 值),随着思考的推进,解决方案的准确性往往会下降或波动,这为过度思考现象提供了进一步的证据。
然而,对于更复杂的问题,这一趋势会发生变化——解决方案的准确性会随着思考的推进而提高,直至达到某个阈值。超过这个复杂度阈值,在“崩溃模式”下,模型的准确率为零。
白婷告诉 DeepTech,模型在复杂问题中需要多次推理,在一直没有正确解的前提下,模型推理机制中有可能采用了多次迭代推理生成效率优化策略,或许是防止迭代过多的一种资源保护策略。因此,本次论文中的发现需要从模型实现层面去进行细致的分析和验证。
白婷指出,大模型的推理过程本质上是记忆模式的调用也是有可能的。 对于 DeepSeek-R1、o3-mini 这类模型,其表现高度依赖训练数据中记忆模式的覆盖范围,当问题复杂度突破记忆模式的覆盖阈值(如本次苹果研究团队设计的可控谜题环境),模型便陷入 “零准确率” 状态。
虽然本次谜题环境允许对问题复杂度进行细粒度控制的受控实验,但它们仅代表推理任务的一小部分,可能无法捕捉到现实世界或知识密集型推理问题的多样性。
需要指出的是,本研究主要基于黑箱 API 访问封闭的前沿大推理模型,这一限制使研究团队无法分析其内部状态或架构组件。
此外,使用确定性谜题模拟器时,研究团队假设推理可以一步一步地得到完美验证。然而,在结构化程度较低的领域,这种精确的验证可能难以实现,从而限制了该分析方法向更广泛推理场景的迁移。
总的来说,研究团队通过可控的解谜环境,从问题复杂度的角度考察了前沿大型推理模型。这一成果揭示了当前模型的局限性:即尽管它们拥有复杂的自我反思机制,但这些模型在超过特定复杂度阈值后,仍然无法发展出可泛化的推理能力。研究团队认为,本次成果或许能为研究这些模型的推理能力铺平道路。
运营/排版:何晨龙
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.