炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
新智元報道
編輯:定慧
【新智元導讀】蘋果最新研究揭示大推理模型(LRM)在高複雜度任務中普遍“推理崩潰”:思考路徑雖長,卻常在關鍵時刻放棄。即便給予明確算法提示,模型亦無法穩定執行,暴露推理機制的侷限性。
AI“思考”只是假象?
剛剛,一項來自蘋果的重磅研究揭示了“大推理模型(LRM)”背後的驚人真相——這些看似聰明的模型,在面對稍複雜點的題目時,準確率居然會全面崩潰!
隨着問題變難,推理模型初始會延長思考,但隨後思考深度反而下降,儘管仍有充足token預算——它們恰在最需要深入思考時選擇了放棄!
這太違背直覺了,似乎Scaling Law在推理時完全失效了。
值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。
論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
LRM模型因能“寫出思考過程”而備受期待,被認爲是AI推理能力躍升的關鍵。
DeepSeek-R1 模式的開源開啓了LLM進化到LRM的進程
但研究人員通過可控遊戲環境的系統實驗證明:現有LRMs不僅在高複雜度任務上力不從心,甚至還展現出一種“反常的推理崩潰曲線”——題目越難,它們反而越不“努力”。
研究還通過在相同計算token預算下對比思考模型與普通模型,發現:
不同於大多數僅衡量最終性能的研究,這項最新研究分析了它們實際的推理軌跡——深入觀察其冗長的“思考”過程。
三種不同的性能區間
與以往主要依賴數學問題來評估語言模型推理能力的研究不同,本研究引入了可控的解謎環境。
這種環境可以精確調節問題的複雜度,同時保持邏輯過程的一致性,從而更嚴謹地分析模型的推理模式和侷限性。
頂部的“LLM Response”部分表示研究設置了可以驗證模型的最終答案和中間推理過程,從而能夠更細緻地分析模型的思維行爲。
左下準確率和中間的回答長度表示:在任務複雜度較低時,不進行推理的模型表現得更準確,也更節省Token。
隨着複雜度提升,具備推理能力的模型開始表現更好,但也消耗更多Token——直到複雜度超過某個臨界點後,兩類模型的表現都會迅速下降,同時推理過程變得更簡短。
右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會在任務複雜度低時較早找到正確答案,而在複雜度高時則更晚得出答案。
而在失敗案例中,它往往會在一開始就陷入錯誤答案,之後繼續浪費剩餘的 Token 預算。這兩種情況都暴露了推理過程中存在的效率問題。
數學和謎題環境
對思考型與非思考型模型在數學基準測試中的對比分析顯示出模型的性能表現並不一致。
在MATH-500數據集上,兩類模型的表現相近;但在AIME24和AIME25基準上,思考模型的表現明顯更優。
此外,從AIME24到AIME25的性能下降也揭示出這些基準數據易受到數據污染問題的影響。
研究設置了四種謎題環境。
每列展示一個謎題從初始狀態(頂部)、中間狀態(中部)到目標狀態(底部)的變化過程。
四個謎題分別是:漢諾塔(將圓盤在柱子間移動)、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個對象安全運送過河)、積木世界(重新排列積木的堆疊結構)。
在所有謎題環境中,不同複雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對應模型(Claude 3.7 Sonnet、DeepSeek-V3)的準確率對比。
最明顯的依然是,當問題複雜度突破一定閾值後,所有模型的準確率同時坍塌至0%!
實驗和結果
結果顯示:
推理模型的崩潰
上圖表示推理模型在不同謎題環境中,準確率與思考token使用量隨問題複雜度變化的趨勢圖。
隨着複雜度上升,模型在一開始會投入更多思考token,準確率則逐漸下降;
但當複雜度達到某個臨界點時,模型的推理能力開始崩潰——表現急劇下降,同時思考token的使用量也隨之減少。
深入“思考模型內部”
左圖與中圖展示了在不同複雜度下,四種謎題中推理過程中間解的出現位置及其正確性。✓ 表示中間解正確,✗ 表示錯誤,陰影表示分佈密度。
右圖則顯示了在不同複雜度下,漢諾塔謎題中解決方案的準確率隨思考過程位置的變化情況。
結果顯示:
未解之謎:推理模型的異常行爲
如上圖a和b所示,在漢諾塔遊戲環境中,即便在提示中直接提供瞭解法算法,讓模型只需按步驟執行,模型的表現仍未改善,推理崩潰的現象依然出現在大致相同的位置。
這一點非常值得注意,因爲設計並找到一個解法通常比僅僅執行一個已知算法需要更多的計算(比如搜索與驗證)。這一現象進一步突顯了推理模型在“驗證”以及按邏輯步驟解決問題方面的能力侷限。
如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環境中表現出明顯不同的行爲。
在漢諾塔環境中,當N=10時,模型通常直到大約第100步纔會出現第一處錯誤;
而在過河環境中,同一個模型卻只能正確地完成前4步,之後便無法繼續生成有效解。
這種差異非常顯著。
值得注意的是,當 N=5(即需要31步解)時,模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。
這一現象很可能說明:在網絡數據中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓練中幾乎沒有見過或記住這類實例。
這項研究系統性地評估了大推理模型(LRMs),低複雜度下,標準LLM反而更穩;中等複雜度時,LRM暫時領先;可一旦問題變得複雜到一定程度——兩者雙雙崩盤。
分析推理軌跡後,研究者發現模型在簡單問題上“過度思考”,在複雜問題上則徹底罷工。
甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉。
模型在漢諾塔中可連續操作100步不出錯,到了過河問題裏,卻五步都撐不過去!
這背後的原因成謎,但無疑爲後續探索AI推理極限打開了一個新的突破口。
眼下的LRM,距離“通用推理”這座大山,顯然還有不少路要走。
參考資料:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。