LLM神話破滅？蘋果論文最新實錘：難以實現真正智能

在蘋果年度全球開發者大會（WWDC）前夕，蘋果公司的處境並不輕鬆。儘管過去數月持續放出關於人工智能（AI）功能的預告，包括「更聰明的 Siri」即將上線，但承諾尚未兌現，技術展示寥寥，讓蘋果在日益激烈的 AI 競賽中顯得很被動。與此同時，曾一手締造 iPhone 傳奇的前首席設計師 Jony Ive，如今也轉而與 OpenAI 合作，外界紛紛質疑蘋果是否還可以站在下一輪科技發展的潮頭。

正是在這一微妙時刻，蘋果研究團隊發布了一項顛覆認知的新研究，並被紐約大學心理學與神經科學教授 Gary Marcus 解讀為對當下大語言模型（LLMs）的「致命一擊」。

這篇題為「The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity」的論文，通過問題複雜性的視角探討了推理模型的優勢與侷限性，主要觀點如下：

當前模型存在根本性限制，儘管引入了複雜的自我反思機制，依然無法在超過一定複雜度閾值的問題中表現出可泛化的推理能力。

模型在不同複雜度問題中的表現存在三種分界：在低複雜度問題中標準 LLMs 表現優於 LRMs，在中等複雜度問題中 LRMs 佔優，在高複雜度問題中兩者均表現失敗。

研究發現一個反直覺現象，當問題接近關鍵複雜度時，模型的推理努力反而減少，這提示 LRMs 可能存在計算能力擴展的內在極限。

模型的推理行為呈現複雜度相關性，在簡單問題上表現為低效的「過度思考」，在複雜問題上則完全無法作答。

LRMs 可能存在可泛化推理的根本性障礙；在執行精確計算方面也有侷限性。

Marcus 在一篇題為「A knockout blow for LLMs?」（對 LLMs 的致命一擊？）中表示，LLMs 無法替代精心設計的傳統算法，雖在未來十年內仍有編碼、頭腦風暴和寫作等用途，但他認為 LLMs 能直接通往可根本改變社會的 AGI 是不切實際的。

LLMs推理看似縝密，實則在騙人

在 Marcus 看來，蘋果這篇論文從兩個維度強化了對 LLMs 根本性弱點的批判：一個是他本人自 1998 年以來不斷強調的「訓練分佈邊界問題」，另一個則是亞利桑那州立大學計算機科學家 Subbarao（Rao）Kambhampati 近年來圍繞「推理模型」提出的一系列質疑。

神經網絡擅長在「訓練分佈」範圍內進行歸納和泛化，但一旦脫離這一熟悉的數據分佈，模型的能力便迅速崩潰。早在 1998 年，他就以多層感知器為例，指出這類神經網絡在基礎數學與語言預測任務中一旦遇到分佈外（out-of-distribution）情境，性能大幅下降，這一批判思路貫穿他之後的主要研究。

此外，蘋果論文也延續了 Rao 對「推理模型」（reasoning models）的系統性反思。Rao 指出，許多 LLMs 生成的「思維鏈」（chain of thought）看似嚴密，實則未必反映真實的推理過程。即便模型輸出了一系列「思考步驟」，它的執行路徑往往並不與之對應。即它「說」自己這樣推理了，但它其實並沒有這麼做。此外，即使推理軌跡邏輯上無懈可擊，模型的最終答案也可能錯誤。Rao 甚至早在蘋果團隊之前，就發現了 o1 模型存在類似的結構性問題，並在線上發表了相關工作。

蘋果的最新論文進一步證實了這一點，表明即使是最新一代的「推理模型」也無法解決這一根本性問題。這對於那些期待 LLMs 通過「推理」或「推理時計算」（inference-time compute）來克服這些侷限性的人來說，是一個沉重的打擊。

連漢諾塔都解不好，AGI之夢何來？

「漢諾塔」是計算機科學的經典入門難題：你需要將一組從大到小排列的圓盤，從左邊的柱子全部搬到右邊，每次只能移動一個盤，且不能把大的疊在小的上面。對於計算機而言，它幾乎是「基礎操作」，任何一本入門教材都能教會學生如何用遞歸算法解決七層漢諾塔。

然而，蘋果團隊的實驗證明，Claude 在處理這個看似簡單的邏輯問題時表現令人失望：7 層準確率不足 80%，8 層基本崩盤。而備受矚目的 o3-min（high）模型表現同樣平平。

更讓人無法接受的是，即使直接把標準算法餵給模型，只要求其「照做」，它們依舊無法正確執行。這不僅是對「推理模型」名號的質疑，更暴露出當前主流大模型在結構性問題上的嚴重不可靠。

蘋果論文作者之一 Iman Mirzadeh 表示：我們的觀點並非是「人類毫無侷限，而 LRMs 存在侷限，因此它們不智能」。只是從它們的思維過程來看，其邏輯性和智能性確實有所欠缺。

Marcus 認為，AI 的未來應該將科學家級別的因果推理能力與機器的計算速度相結合，從而在科學、醫療、能源等關鍵領域實現真正的突破，纔可能讓 AI 對人類真正有益。

反之，如果連 8 層漢諾塔都玩不好，那什麼「提取地球光錐」或「解構物理學」都將淪為空中樓閣。而更現實的是，像 o3 這樣的模型實際上比專注的人類更容易產生幻覺，在繪製可靠的圖表等方面也十分喫力；它們確實與人類有一些相似的弱點，但在許多方面，它們實際上表現得更差。

「人類有時會犯錯，往往是因為記性不太好；而 LLMs 擁有海量的存儲空間，再犯錯實在說不過去。」

LLMs不是「通才」，更不是未來萬能鑰匙

蘋果的這項研究揭示：無論 AGI 的定義如何變化，當前主流 LLMs 都無法取代結構明確、邏輯清晰的傳統算法。它們在處理某些複雜任務時，表現遠不如幾十年前開發的專用系統。

就像 LLMs 難以穩定解出漢諾塔問題一樣，它們在國際象棋、蛋白質摺疊、數據庫查詢等方面也遠遜於現有的專用工具。即使是被廣泛稱讚的 o3 或 Claude 模型，也未必能夠可靠地運行。

某些情況下，LLMs 能生成 Python 代碼來「補足」自己的邏輯缺陷，但這僅僅是將問題外包給外部程序邏輯，本身並沒有建立通用解題能力。而最危險的是，它們在簡單場景中（如 4 層漢諾塔）偶然成功，從而誤導人們以為模型具備了可泛化的認知結構。

Marcus 說道，那些認為 LLMs 是通往能夠從根本上為社會帶來積極變革的那種 AGI 的直接途徑的人，未免太天真了。這並不意味着神經網絡這個領域已經死亡，也不意味着深度學習已經過時。LLMs 只是深度學習的一種形式，或許其他形式——尤其是那些更善於處理符號的——最終會蓬勃發展起來。時間會證明一切。但目前這種方法的侷限性正日益清晰。

但是，蘋果的研究也有一些侷限性：謎題環境雖能精細控制問題複雜性，但只能代表推理任務的一個小領域，難以涵蓋現實世界中多樣化和知識密集型的推理問題；大部分實驗依賴對封閉前沿的 LRMs 的黑箱 API 訪問，限制了對其內部狀態和架構組件的分析能力；使用確定性的謎題模擬器假設推理可逐步完美驗證，但在結構不嚴謹的領域，這種精確驗證難以實現，限制了該分析方法向更具普遍性的推理領域的應用。Marcus 還指出，實際上，人類在進行漢諾塔遊戲時也會出錯，因此單純通過該任務來否定其價值存在一定爭議。

參考資料：

https://techxplore.com/news/2025-06-apple-pressure-ai-stumble.html

https://garymarcus.substack.com/p/a-knockout-blow-for-llms

https://machinelearning.apple.com/research/illusion-of-thinking

編輯：錦鯉

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

LLM神話破滅？蘋果論文最新實錘：難以實現真正智能

熱議股票