
在蘋果年度全球開發者大會(WWDC)前夕,蘋果公司的處境並不輕鬆。儘管過去數月持續放出關於人工智能(AI)功能的預告,包括「更聰明的 Siri」即將上線,但承諾尚未兌現,技術展示寥寥,讓蘋果在日益激烈的 AI 競賽中顯得很被動。與此同時,曾一手締造 iPhone 傳奇的前首席設計師 Jony Ive,如今也轉而與 OpenAI 合作,外界紛紛質疑蘋果是否還可以站在下一輪科技發展的潮頭。
正是在這一微妙時刻,蘋果研究團隊發布了一項顛覆認知的新研究,並被紐約大學心理學與神經科學教授 Gary Marcus 解讀為對當下大語言模型(LLMs)的「致命一擊」。

這篇題為「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」的論文,通過問題複雜性的視角探討了推理模型的優勢與侷限性,主要觀點如下:
當前模型存在根本性限制,儘管引入了複雜的自我反思機制,依然無法在超過一定複雜度閾值的問題中表現出可泛化的推理能力。
模型在不同複雜度問題中的表現存在三種分界:在低複雜度問題中標準 LLMs 表現優於 LRMs,在中等複雜度問題中 LRMs 佔優,在高複雜度問題中兩者均表現失敗。
研究發現一個反直覺現象,當問題接近關鍵複雜度時,模型的推理努力反而減少,這提示 LRMs 可能存在計算能力擴展的內在極限。
模型的推理行為呈現複雜度相關性,在簡單問題上表現為低效的「過度思考」,在複雜問題上則完全無法作答。
LRMs 可能存在可泛化推理的根本性障礙;在執行精確計算方面也有侷限性。
Marcus 在一篇題為「A knockout blow for LLMs?」(對 LLMs 的致命一擊?)中表示,LLMs 無法替代精心設計的傳統算法,雖在未來十年內仍有編碼、頭腦風暴和寫作等用途,但他認為 LLMs 能直接通往可根本改變社會的 AGI 是不切實際的。
LLMs推理看似縝密,實則在騙人
在 Marcus 看來,蘋果這篇論文從兩個維度強化了對 LLMs 根本性弱點的批判:一個是他本人自 1998 年以來不斷強調的「訓練分佈邊界問題」,另一個則是亞利桑那州立大學計算機科學家 Subbarao(Rao)Kambhampati 近年來圍繞「推理模型」提出的一系列質疑。
神經網絡擅長在「訓練分佈」範圍內進行歸納和泛化,但一旦脫離這一熟悉的數據分佈,模型的能力便迅速崩潰。早在 1998 年,他就以多層感知器為例,指出這類神經網絡在基礎數學與語言預測任務中一旦遇到分佈外(out-of-distribution)情境,性能大幅下降,這一批判思路貫穿他之後的主要研究。
此外,蘋果論文也延續了 Rao 對「推理模型」(reasoning models)的系統性反思。Rao 指出,許多 LLMs 生成的「思維鏈」(chain of thought)看似嚴密,實則未必反映真實的推理過程。即便模型輸出了一系列「思考步驟」,它的執行路徑往往並不與之對應。即它「說」自己這樣推理了,但它其實並沒有這麼做。此外,即使推理軌跡邏輯上無懈可擊,模型的最終答案也可能錯誤。Rao 甚至早在蘋果團隊之前,就發現了 o1 模型存在類似的結構性問題,並在線上發表了相關工作。
蘋果的最新論文進一步證實了這一點,表明即使是最新一代的「推理模型」也無法解決這一根本性問題。這對於那些期待 LLMs 通過「推理」或「推理時計算」(inference-time compute)來克服這些侷限性的人來說,是一個沉重的打擊。
連漢諾塔都解不好,AGI之夢何來?
「漢諾塔」是計算機科學的經典入門難題:你需要將一組從大到小排列的圓盤,從左邊的柱子全部搬到右邊,每次只能移動一個盤,且不能把大的疊在小的上面。對於計算機而言,它幾乎是「基礎操作」,任何一本入門教材都能教會學生如何用遞歸算法解決七層漢諾塔。
然而,蘋果團隊的實驗證明,Claude 在處理這個看似簡單的邏輯問題時表現令人失望:7 層準確率不足 80%,8 層基本崩盤。而備受矚目的 o3-min(high)模型表現同樣平平。


更讓人無法接受的是,即使直接把標準算法餵給模型,只要求其「照做」,它們依舊無法正確執行。這不僅是對「推理模型」名號的質疑,更暴露出當前主流大模型在結構性問題上的嚴重不可靠。
蘋果論文作者之一 Iman Mirzadeh 表示:我們的觀點並非是「人類毫無侷限,而 LRMs 存在侷限,因此它們不智能」。只是從它們的思維過程來看,其邏輯性和智能性確實有所欠缺。
Marcus 認為,AI 的未來應該將科學家級別的因果推理能力與機器的計算速度相結合,從而在科學、醫療、能源等關鍵領域實現真正的突破,纔可能讓 AI 對人類真正有益。
反之,如果連 8 層漢諾塔都玩不好,那什麼「提取地球光錐」或「解構物理學」都將淪為空中樓閣。而更現實的是,像 o3 這樣的模型實際上比專注的人類更容易產生幻覺,在繪製可靠的圖表等方面也十分喫力;它們確實與人類有一些相似的弱點,但在許多方面,它們實際上表現得更差。
「人類有時會犯錯,往往是因為記性不太好;而 LLMs 擁有海量的存儲空間,再犯錯實在說不過去。」
LLMs不是「通才」,更不是未來萬能鑰匙
蘋果的這項研究揭示:無論 AGI 的定義如何變化,當前主流 LLMs 都無法取代結構明確、邏輯清晰的傳統算法。它們在處理某些複雜任務時,表現遠不如幾十年前開發的專用系統。
就像 LLMs 難以穩定解出漢諾塔問題一樣,它們在國際象棋、蛋白質摺疊、數據庫查詢等方面也遠遜於現有的專用工具。即使是被廣泛稱讚的 o3 或 Claude 模型,也未必能夠可靠地運行。

某些情況下,LLMs 能生成 Python 代碼來「補足」自己的邏輯缺陷,但這僅僅是將問題外包給外部程序邏輯,本身並沒有建立通用解題能力。而最危險的是,它們在簡單場景中(如 4 層漢諾塔)偶然成功,從而誤導人們以為模型具備了可泛化的認知結構。
Marcus 說道,那些認為 LLMs 是通往能夠從根本上為社會帶來積極變革的那種 AGI 的直接途徑的人,未免太天真了。這並不意味着神經網絡這個領域已經死亡,也不意味着深度學習已經過時。LLMs 只是深度學習的一種形式,或許其他形式——尤其是那些更善於處理符號的——最終會蓬勃發展起來。時間會證明一切。但目前這種方法的侷限性正日益清晰。
但是,蘋果的研究也有一些侷限性:謎題環境雖能精細控制問題複雜性,但只能代表推理任務的一個小領域,難以涵蓋現實世界中多樣化和知識密集型的推理問題;大部分實驗依賴對封閉前沿的 LRMs 的黑箱 API 訪問,限制了對其內部狀態和架構組件的分析能力;使用確定性的謎題模擬器假設推理可逐步完美驗證,但在結構不嚴謹的領域,這種精確驗證難以實現,限制了該分析方法向更具普遍性的推理領域的應用。Marcus 還指出,實際上,人類在進行漢諾塔遊戲時也會出錯,因此單純通過該任務來否定其價值存在一定爭議。
參考資料:
https://techxplore.com/news/2025-06-apple-pressure-ai-stumble.html
https://garymarcus.substack.com/p/a-knockout-blow-for-llms
https://machinelearning.apple.com/research/illusion-of-thinking
編輯:錦鯉