人工智能成人工智障?蘋果AI研究:推理模型LRM簡易問題想太多、複雜問題崩潰

TradingKey中文
2025/06/09

TradingKey - 在市場擔憂iPhone製造商蘋果AAPL)在人工智能發展方面落伍之際,蘋果最新的一篇AI研究揭露了現在流行的AI大模型的「繁榮假象」:AI推理模型遠達不到預期的推理功能——簡單問題複雜化,複雜問題直接陷入崩潰。

6月,蘋果發表了一篇名為《思考的幻覺:從問題複雜性的角度理解推理模型的優點和侷限性》的研究報告。文章指出,現有的一些號稱具有「推理能力」或思考能力的AI模型實際上並不具備通用和穩健的推理能力。

無論是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等領先模型,他們已經發展到不是簡單給出答案,而是生成詳盡的「思維鏈」(Chain-of-thought,CoT)、模仿人類解決問題時的思考過程、甚至自我反思和修正的模型。

研究人員稱之為「大型推理模型」(Large Reasoning Models,LRMs)。不少人認為,這種技術的發展將推動人類向理想的通用人工智能(AGI)邁進。

與常見的強調最終答案準確性的基準測試不同,蘋果公司通過不同的複雜性的問題環境對標準模型LLM和推理模型LRM進行了比較,結果推理模型有一些情況下還不如標準模型。

  • 低複雜度模式:不帶思考鏈的標準LLM比LRM更準確、更高效,LRM模型容易陷入過度思考的陷阱,造成計算資源浪費和引入錯誤。
  • 中等複雜模式:LRM的思考鏈的優勢開始顯現,詳盡的思考過程確實幫助模型更好應對增加的挑戰。
  • 高複雜模式:當問題複雜度升至某個臨界點,LLM和LRM模型都徹底崩潰,準確率降至0。

然而,現實生活中的多數問題都屬於高複雜度模式,這凸顯了推理AI模型在實際應用上的挑戰。

谷歌執行長Sundar Pichai用「人工鋸齒智能」(人工智能,AJI)來描述AI不穩定的能力——AI給出的答案時而令人讚嘆,時而會犯簡單的數字錯誤,比如連strawberry有多少個r字母都不清楚。

原文鏈接

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10