Gary Marcus:純LLM上構建AGI徹底沒希望!MIT、芝大、哈佛論文火了

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

機器之心報道

編輯：杜偉、大盤雞

今天，著名的人工智能學者和認知科學家 Gary Marcus 轉推了 MIT、芝加哥大學、哈佛大學合著的一篇爆炸性論文，稱“對於 LLM 及其所謂能理解和推理的神話來說，情況變得更糟了 —— 而且是糟糕得多。”

這項研究揭示了一種被稱爲“波將金式”（Potemkins）的推理不一致性模式（見下文圖 1）。研究表明，即使是像 o3 這樣的頂級模型也頻繁犯此類錯誤。基於這些連自身論斷都無法保持一致的機器，你根本不可能創造出通用人工智能（AGI）。

正如論文所言：在基準測試上的成功僅證明了“波將金式理解”：一種由“與人類對概念的理解方式完全不可調和的答案”所驅動的理解假象…… 這些失敗反映的不僅是理解錯誤，更是概念表徵深層次的內在矛盾。

Gary Marcus 認爲，這宣告了任何試圖在純粹 LLM 基礎上構建 AGI 希望的終結。最後，他還 @了 Geoffrey Hinton，稱後者要失敗（checkmate）。

接着，Gary Marcus 又接連發推，分享了他對這篇論文的更多看法。

他稱基於非正式測試，發現像 o3 這類模型似乎較不容易陷入簡單的“波將金式錯誤”，但並非完全免疫。

如下圖（左）所示，模型雖然能正確闡述俳句的定義，卻錯誤斷言“asphalt shimmers”符合俳句末行應爲五音節的要求；直到後續追問之下（右），才勉強承認錯誤。這再次印證了問題的核心：根本缺陷在於其缺乏可靠性。

在仔細研讀論文後，Gary Marcus 認爲它的核心觀點是正確的 ——LLM 確實容易產生各種自相矛盾（比如之前說的“波將金式錯誤”）。但是，論文裏具體的實驗例子在他看來說服力不夠強。

根據他自己之前非正式實驗的觀察（包括下週會公佈的一個例子），Gary Marcus 確信此處存在一個真正的問題。不過，要想真正弄清楚這個問題的普遍性有多大，以及它對不同類型模型的影響程度如何，還需要進行更深入的研究。

Gary Marcus 的觀點讓評論區炸了鍋，有人問他是否認可 LLM 越來越好。他雖然持肯定答案，但也認爲它們有可能來到了收益遞減的點。

還有人認爲，我們其實不需要 LLM 理解，只要它們表現得越來越好就夠了。即使是人類，也並不總是可以理解。

谷歌 DeepMind 資深科學家（Principal Scientist）Prateek Jain 現身評論區，表示這篇論文和它提出的評估方法 + 基準測試很有意思！他拿出 Gemini 2.5 Pro 測試了論文中提到的所有例子，結果都答對了。因此，他很想知道 Gemini 2.5 Pro 在完整的測試集上表現如何，以及它在哪些具體例子上會出錯。

有人也提出了質疑，這篇論文只是很好地描述了當前 LLM 的一種廣爲人知的實效模式，不明白爲什麼“註定失敗”呢。

接下來，我們來看這篇論文究竟講了什麼，是否真能支撐起 Gary Marcus 這番言論。

論文介紹

大型語言模型通常依靠基準數據集進行評估。但僅僅根據它們在一套精心挑選的問題上的回答，就推斷其能力是否合理？本文首先提出了一個形式化框架來探討這一問題。關鍵在於：用來測試 LLM 的基準（例如 AP 考試）原本是爲了評估人類設計的。然而，這帶來了一個重要前提：只有當 LLM 在理解概念時出現的誤解方式與人類相似時，這些基準才能作爲有效的能力測試。否則，模型在基準上的高分只能展現一種“波將金式理解”：看似正確的回答，卻掩蓋了與人類對概念的真正理解之間的巨大差距。

爲此，本文提出了兩種方法來量化“波將金現象”的存在：一種是基於針對三個不同領域特製的基準，另一種是通用的程序，可提供其普遍性下限的估計。研究結果顯示，波將金現象在各類模型、任務和領域中普遍存在；更重要的是，這些失敗不僅是表面上的錯誤理解，更揭示了模型在概念表徵上的深層內在不一致性。

大型語言模型中的潛在理解圖示。這個例子顯示了 GPT-4o 未能運用自己的概念解釋 ABAB 韻律方案。

框架

當人類與大型語言模型在對概念的理解上存在不一致時，就會出現“波將金現象”。在此，本文提出了一個用於定義概念性理解的理論框架。

研究團隊將這一概念形式化：定義 X 爲與某一概念相關的所有字符串的集合。例如，一個字符串可以是該概念的一個可能定義，或是一個可能的示例。然而，並非所有與概念相關的字符串都是對概念的有效使用。

一個概念的解釋被定義爲任何函數 f:X→{0,1}，其中輸出表示該字符串在此解釋中是否被認爲是有效的（0 表示無效，1 表示有效）。存在唯一正確的解釋，記作 f* 。人類對概念可能的解釋方式構成的集合記作 F_h。其中，任何 f∈ F_h 且 f≠f* 的情況，都代表了人類對該概念可能產生的一種誤解。

考慮人類可能採用的某種解釋 f∈ F_h，我們如何檢驗 f 是不是正確的解釋？實際上，在所有字符串 x∈X 上驗證 f (x)= f*(x) 是不可行的。

因此，研究團隊希望僅在少數幾個字符串 x 上檢驗 f (x)= f*(x)。但這種做法在什麼時候是合理的呢？答案在該框架中得以揭示：如果他們選擇的示例集是經過精心設計的，使得只有真正理解概念的人才能對這些示例做出正確解釋，那麼就可以用有限的示例集來測試人類的概念理解。

形式化地，他們將基石集定義爲 S⊆X 的一個最小實例集，使得若 f∈F_h 且對所有 x∈S 滿足 f (x)=f*(x)，則可得出 f= f* 。也就是說，如果某人在基石集中的每個示例上都能做出與正確解釋一致的判斷，那麼就不可能將其解釋與任何錯誤的人類理解調和起來。圖 2 給出了基石集的可視化示意。

這一方法說明了爲什麼測試人類對概念的理解是可行的：測試概念理解並不需要在所有相關示例上檢驗，而只需在基石集中的示例上進行測試即可。

方法及結論

本文提出了兩種用於衡量大型語言模型中波將金現象普遍性的程序。本節介紹其中一種方法：基於研究團隊收集的基準數據集，測量一種特定類型的波將金式失敗 —— 即對概念的描述與應用之間的脫節。具體來說，他們構建了一個涵蓋三個不同領域（文學技巧、博弈論和心理偏差）的數據集，涉及 32 個概念，共收集了 3159 條標註數據。

他們發現，即使模型能夠正確地定義一個概念，它們在分類、生成和編輯任務中往往無法準確地將其應用。所有收集到的數據、標註和分析結果均在 Potemkin Benchmark 倉庫中公開提供。

研究團隊在 32 個概念上對 7 個大型語言模型進行了分析。這些模型因其流行度以及涵蓋不同開發商和規模而被選中。他們通過 OpenAI、Together.AI、Anthropic 和 Google 的 API 收集模型推理結果。對於每個（模型，概念）組合，他們首先判斷模型是否給出了正確的概念定義。如果定義正確，再評估其在三項額外任務 —— 分類、生成和編輯 —— 中的準確性。根據本文的框架規範，將模型的回答標記爲正確或錯誤。

他們測量模型表現出的波將金率。波將金率被定義爲：在基石示例上做出正確回答的前提下，模型在隨後的問題上回答錯誤的比例。對於隨機準確率爲 0.50 的任務，將該值乘以 2，使得波將金率爲 1 表示表現相當於隨機水平。

研究結果顯示，在所有模型和領域中，波將金率都普遍較高。

雖然模型在 94.2% 的情況下能正確地定義概念，但在需要使用這些概念執行任務時，其表現會急劇下降，這一點通過表中的高波將金率得到體現。儘管不同模型和任務間表現略有差異，但我們可以發現波將金現象在研究團隊分析的所有模型、概念和領域中無處不在。

研究團隊還提出了一種不同的、自動化的程序，用於評估波將金現象的存在。

剛纔，已經展示了波將金式理解在大型語言模型中的普遍性。造成這種現象可能有兩種原因：一種可能是模型對概念的理解存在輕微偏差，但其內部是一致的；另一種可能是模型對概念的理解本身就是不連貫的，對同一個概念持有相互衝突的認知。爲了區分這兩種情況，研究團隊專門測試模型內部的概念不一致性。

他們通過兩步來衡量不一致性。首先，研究團隊提示模型生成某一特定概念的一個實例或非實例（例如，生成一個斜韻的例子）。接着，他們將模型生成的輸出重新提交給模型（通過獨立的查詢），並詢問該輸出是否確實是該概念的一個實例。在斜韻的例子中，這意味着測試模型能否認出自己生成的示例是否屬於斜韻。圖 5 總結了這一流程。

表 2 中我們可以觀察到在所有檢查的模型、概念和領域之間存在不一致性，得分範圍從 0.02 到 0.64。儘管這些得分好於隨機情況，但仍然表明模型在一致性評估其自身輸出方面存在實質性侷限。這表明概念誤解不僅源於對概念的誤解，還源於對它們使用的不一致。

綜上，通過兩種互補的實證方法 —— 一種利用涵蓋文學技巧、博弈論和心理偏差的新基準數據集，另一種採用自動化評估策略 —— 本文量化了波將金式理解現象在各種任務、概念、領域和模型中的普遍存在。兩種方法均顯示，即便是在按照傳統基準測試標準看似能力很強的模型中，這種現象的發生率也很高。不一致性檢測表明，模型內部存在對同一思想的衝突表徵。

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

Gary Marcus:純LLM上構建AGI徹底沒希望!MIT、芝大、哈佛論文火了

熱議股票