人工智能成人工智障？蘋果AI研究：推理模型LRM簡易問題想太多、複雜問題崩潰

TradingKey - 在市場擔憂iPhone製造商蘋果（AAPL）在人工智能發展方面落伍之際，蘋果最新的一篇AI研究揭露了現在流行的AI大模型的「繁榮假象」：AI推理模型遠達不到預期的推理功能——簡單問題複雜化，複雜問題直接陷入崩潰。

6月，蘋果發表了一篇名為《思考的幻覺：從問題複雜性的角度理解推理模型的優點和侷限性》的研究報告。文章指出，現有的一些號稱具有「推理能力」或思考能力的AI模型實際上並不具備通用和穩健的推理能力。

無論是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等領先模型，他們已經發展到不是簡單給出答案，而是生成詳盡的「思維鏈」（Chain-of-thought，CoT）、模仿人類解決問題時的思考過程、甚至自我反思和修正的模型。

研究人員稱之為「大型推理模型」（Large Reasoning Models，LRMs）。不少人認為，這種技術的發展將推動人類向理想的通用人工智能（AGI）邁進。

與常見的強調最終答案準確性的基準測試不同，蘋果公司通過不同的複雜性的問題環境對標準模型LLM和推理模型LRM進行了比較，結果推理模型有一些情況下還不如標準模型。

低複雜度模式：不帶思考鏈的標準LLM比LRM更準確、更高效，LRM模型容易陷入過度思考的陷阱，造成計算資源浪費和引入錯誤。
中等複雜模式：LRM的思考鏈的優勢開始顯現，詳盡的思考過程確實幫助模型更好應對增加的挑戰。
高複雜模式：當問題複雜度升至某個臨界點，LLM和LRM模型都徹底崩潰，準確率降至0。

然而，現實生活中的多數問題都屬於高複雜度模式，這凸顯了推理AI模型在實際應用上的挑戰。

谷歌執行長Sundar Pichai用「人工鋸齒智能」（人工智能，AJI）來描述AI不穩定的能力——AI給出的答案時而令人讚嘆，時而會犯簡單的數字錯誤，比如連strawberry有多少個r字母都不清楚。

原文鏈接

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

人工智能成人工智障？蘋果AI研究：推理模型LRM簡易問題想太多、複雜問題崩潰

熱議股票