TradingKey - 在市場擔憂iPhone製造商蘋果(AAPL)在人工智能發展方面落伍之際,蘋果最新的一篇AI研究揭露了現在流行的AI大模型的「繁榮假象」:AI推理模型遠達不到預期的推理功能——簡單問題複雜化,複雜問題直接陷入崩潰。
6月,蘋果發表了一篇名為《思考的幻覺:從問題複雜性的角度理解推理模型的優點和侷限性》的研究報告。文章指出,現有的一些號稱具有「推理能力」或思考能力的AI模型實際上並不具備通用和穩健的推理能力。
無論是OpenAI的o1、再到DeepSeek R1、Claude和Gemini等領先模型,他們已經發展到不是簡單給出答案,而是生成詳盡的「思維鏈」(Chain-of-thought,CoT)、模仿人類解決問題時的思考過程、甚至自我反思和修正的模型。
研究人員稱之為「大型推理模型」(Large Reasoning Models,LRMs)。不少人認為,這種技術的發展將推動人類向理想的通用人工智能(AGI)邁進。
與常見的強調最終答案準確性的基準測試不同,蘋果公司通過不同的複雜性的問題環境對標準模型LLM和推理模型LRM進行了比較,結果推理模型有一些情況下還不如標準模型。
- 低複雜度模式:不帶思考鏈的標準LLM比LRM更準確、更高效,LRM模型容易陷入過度思考的陷阱,造成計算資源浪費和引入錯誤。
- 中等複雜模式:LRM的思考鏈的優勢開始顯現,詳盡的思考過程確實幫助模型更好應對增加的挑戰。
- 高複雜模式:當問題複雜度升至某個臨界點,LLM和LRM模型都徹底崩潰,準確率降至0。
然而,現實生活中的多數問題都屬於高複雜度模式,這凸顯了推理AI模型在實際應用上的挑戰。
谷歌執行長Sundar Pichai用「人工鋸齒智能」(人工智能,AJI)來描述AI不穩定的能力——AI給出的答案時而令人讚嘆,時而會犯簡單的數字錯誤,比如連strawberry有多少個r字母都不清楚。
原文鏈接