人工智能成人工智障?苹果AI研究:推理模型LRM简易问题想太多、复杂问题崩溃

TradingKey中文
09 Jun

TradingKey - 在市场担忧iPhone制造商苹果AAPL)在人工智能发展方面落伍之际,苹果最新的一篇AI研究揭露了现在流行的AI大模型的“繁荣假象”:AI推理模型远达不到预期的推理功能——简单问题复杂化,复杂问题直接陷入崩溃。

6月,苹果发表了一篇名为《思考的幻觉:从问题复杂性的角度理解推理模型的优点和局限性》的研究报告。文章指出,现有的一些号称具有“推理能力”或思考能力的AI模型实际上并不具备通用和稳健的推理能力。

无论是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等领先模型,他们已经发展到不是简单给出答案,而是生成详尽的“思维链”(Chain-of-thought,CoT)、模仿人类解决问题时的思考过程、甚至自我反思和修正的模型。

研究人员称之为“大型推理模型”(Large Reasoning Models,LRMs)。不少人认为,这种技术的发展将推动人类向理想的通用人工智能(AGI)迈进。

与常见的强调最终答案准确性的基准测试不同,苹果公司通过不同的复杂性的问题环境对标准模型LLM和推理模型LRM进行了比较,结果推理模型有一些情况下还不如标准模型。

  • 低复杂度模式:不带思考链的标准LLM比LRM更准确、更高效,LRM模型容易陷入过度思考的陷阱,造成计算资源浪费和引入错误。
  • 中等复杂模式:LRM的思考链的优势开始显现,详尽的思考过程确实帮助模型更好应对增加的挑战。
  • 高复杂模式:当问题复杂度升至某个临界点,LLM和LRM模型都彻底崩溃,准确率降至0。

然而,现实生活中的多数问题都属于高复杂度模式,这凸显了推理AI模型在实际应用上的挑战。

谷歌执行长Sundar Pichai用“人工锯齿智能”(人工智能,AJI)来描述AI不稳定的能力——AI给出的答案时而令人赞叹,时而会犯简单的数字错误,比如连strawberry有多少个r字母都不清楚。

原文链接

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10