Karpathy戳破強化學習神話，首提AI覆盤式進化！暴力試錯將死

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

新智元報道

編輯：桃子

【新智元導讀】強化學習，或許並不能通往AGI終點。Karpathy最新發文提出另一種Scaling範式，像人類一樣反思回顧，通過覆盤學習取得突破，更多的S形進步曲線等待發現。

Grok 4能站在大模型之巔，全是Scaling強化學習立了大功。

如今，AI大神Karpathy站出來急潑一盆冷水：

RL只是把最終成敗的單一數值回傳，效率隨任務時長急劇下降。

而且，RL與人類「反思-提煉-再應用」迭代機制存在巨大差異。

RL短期有效

真正突破在於「覆盤學習」

強化學習的本質是，某次行動表現良好（糟糕），就略微提升（降低）未來類似行動的概率。

這種方法通過驗證函數，比顯示監督取得了更大的槓桿效應，無疑是其強大之處。

然而，在Karpathy看來，從長遠角度來講，強化學習或許並不是最優策略。

長時程任務，RL侷限顯現

首先，一旦任務交互時間增加到幾分鐘乃至幾小時，RL就遇到了挑戰。

想象一下，一個數小時交互的任務，最終卻只得到一個單一的標量獎勵，來調整整個過程的梯度。

這樣的反饋，能否足以支撐高效學習？

RL機制與人類差異顯著

其次，對於大多數智能任務而言，這感覺並不像人類的進步機制。

簡言之，RL的機制與人類智能提升方式，存在着顯著的差異。

人類會通過一個覆盤/反思階段，從每一次推演中能提取到多得多的監督信息，比如「哪裏做得好？哪裏不太行？下次該試試什麼？」等等。

從這個階段得到的教訓感覺是明確的，就像一個新字符串，可以直接添加到未來的系統提示詞裏，也可以選擇性地在之後被「蒸餾」成權重/直覺，有點像睡眠的作用。

在英語裏，我們說通過這個過程，某件事會成為人的「第二天性」，而我們目前正缺少這樣的學習範式。

這裏，Karpathy提到了ChatGPT「記憶」功能，或許就是這種機制概念的一個雛形，儘管它目前只用於個性化，而非解決問題。

值得注意的是，在Atari遊戲這類RL場景中也不存在類似的機制，因為那些領域裏沒有大語言模型，也沒有上下文學習。

算法新設想：回顧-反思範式

為此，Karpathy提出了一個算法框架——

給定一個任務，先跑幾次推演，然後把所有推演過程（包括每次的獎勵）都塞進一個上下文，再用一個元提示詞來複盤/反思哪些地方做得好或不好，從而提煉出一個字符串形式的「教訓」，並將其添加到系統提示詞中（或者更通用地，更新當前的教訓數據庫）。

不過，他表示，這裏面有很多細節要填充，有很多地方可以調整，具體怎麼做並不簡單。

舉個栗子，大模型計數問題。

我們知道，由於分詞（tokenization）的原因，大模型不太容易識別單個字母，也不太容易在殘差流裏計數。

所以，衆所周知，模型很難識別出「strawberry」裏的「r」字母。

Claude的系統提示詞裏就加入了一個「快速修復」patch——添加了一段話，大意是：「如果用戶讓你數字母，你得先用逗號把字母隔開，每隔一個就給一個顯式計數器加一，照這樣做完任務」。

這段話就是「教訓」，它明確地指導模型如何完成計數任務。

但問題在於，這種教訓要如何從智能體的實踐中自發產生，而不是由工程師硬編碼進去？它該如何被泛化？

以及，這些教訓如何隨着時間推移被蒸餾，從而避免讓上下文窗口無限膨脹？

最後，他總結道，RL會帶來更多收益，如果應用得當，它的槓桿效應巨大。

並且，深受「慘痛教訓」（bitter lesson）理論的啓發，RL優於監督微調（SFT）。

但它並不是完整的答案，尤其是隨着推演的流程越來越長。

在這之後，還有更多的S型增長曲線等待發現，這些曲線可能專屬於大語言模型，在遊戲/機器人這類環境中沒有先例，而這，正是我覺得激動人心的地方。

OpenAI研究科學家Noam Brown對此深表讚同，「確實，未來仍有許多研究工作有待完成」。

AI初創公司聯創Yuchen Jin提出了一個有趣的觀點，全新訓練範式——課程學習，是一個自監督記憶+檢索+反思的反饋循環，無需任何外部獎勵信號。

一位網友很有見地稱，強化學習實際上是暴力試錯的一種方法，並非是明智的策略。

放棄無效RL研究

最近，關於強化學習的討論，成為了AI圈的一大熱點。

除了Karpathy本人下場，上周前OpenAI研究員Kevin Lu髮長文稱，Transformer只是配角，放棄無效RL研究！

他直言，真正推動AI規模躍遷的技術是互聯網，而非Transformer，這也是你應該停止RL研究，轉投產品開發的原因。

衆所周知數據纔是AI最重要的要素，但研究者們卻往往選擇迴避這個領域...

究竟什麼纔是規模化地做數據？

互聯網提供了天然的數據寶庫：海量且多樣化的數據源、自然形成的學習路徑、反映人類真實需求的能力維度，以及可經濟高效規模化部署的技術特性——

它成為下一個token預測的完美搭檔，構成了AI爆發的原始湯池。

沒有Transformer，我們本可以用CNN或狀態空間模型達到GPT-4.5的水平。

但自GPT-4之後，基礎模型再未出現突破性進展。

專用推理模型在垂直領域表現優異，卻遠不及2023年3月GPT-4帶來的震撼級跨越（距今已兩年多...）。

RL確實成就斐然，但Kevin Lu對此深切擔憂，研究者會重蹈2015-2020年間RL研究的覆轍——沉迷於無關緊要的學術遊戲。

如果說互聯網是監督預訓練的時代搭檔，那麼什麼才能成為強化學習的「共生體」，催生出GPT-1到GPT-4量級的飛躍？

Kevin Lu認為答案在於：研究-產品協同設計。

參考資料：

https://x.com/karpathy/status/1944435412489171119

（轉自：網易科技）

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

Karpathy戳破強化學習神話，首提AI覆盤式進化！暴力試錯將死

熱議股票