炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!
Karpathy 認爲強化學習(RL)在 AI 領域目前很火,而且確實能帶來顯著的性能提升。RL 的核心邏輯是:通過獎勵信號(比如“這次做得好”或“這次很差”),調整模型未來行爲的概率。
這種方法比傳統的監督微調(SFT)更高效,因爲它通過“試錯”能挖掘出更優的策略,而不需要人工事無鉅細地標註數據。
這就是所謂的“verifier functions”(驗證函數)帶來的槓桿效應——你只需要告訴模型結果好壞,它自己就能摸索出更好的路徑。但 Karpathy 也提出了兩個關鍵的擔憂,說明 RL 可能不是 AI 智能進化的全部答案:
1. 長任務的侷限性(漸進問題):
當任務變得很長(比如需要幾分鐘甚至幾小時的交互),RL 的機制看起來有點低效。你花了大量時間完成一個複雜任務,最後只得到一個單一的“得分”(scalar reward),然後用這個得分去調整整個過程中的行爲權重。這就像跑了一場馬拉松,最後只告訴你“跑得不錯”或“跑得不好”,但沒有具體告訴你哪裏可以改進。這種方式在超長任務上顯得粗糙,效率不高。
2. 人類學習的差異(機制問題):
人類在學習時並不完全依賴“結果好壞”這種單一信號。我們會通過反思來提取更多信息,比如“這次哪裏做得好?哪裏出了問題?下次該怎麼改進?”這種反思過程會生成明確的經驗教訓(lessons),就像一條條指導原則,幫我們在未來做得更好。
Karpathy 覺得,RL 缺少這種類似人類反思的機制,而這可能是 LLMs 未來進化的關鍵。
Karpathy 用“second nature”(第二本能)來形容人類通過反思逐漸掌握技能的過程。比如,你學騎自行車時,摔了幾次後會總結:“我得保持平衡,眼睛看前方。”這種總結就像一條“經驗教訓”,直接指導你下次的行爲。
Karpathy 認爲,AI 應該也有類似機制,尤其是像 LLMs 這樣有強大語言能力和上下文學習能力的模型。他舉了個例子:LLMs 在處理某些任務(比如數單詞“strawberry”裏的“r”)時,因爲分詞和內部計算的限制,表現得很喫力。Anthropic 給 Claude 加了一條“補丁”提示,大意是:“如果要數字母,先把單詞拆成單個字母,用逗號隔開,然後一個一個數。”這條提示就像人類總結的“經驗教訓”,直接告訴模型怎麼做更有效。
問題在於:這條“補丁”是工程師手動加的。Karpathy 想知道,能不能讓模型自己通過實踐和反思,自動生成這樣的“經驗教訓”,而不是靠人類硬編碼?更進一步,這些教訓能不能被“蒸餾”成模型的直覺(類似人類睡覺時鞏固記憶),避免上下文窗口無限膨脹?
Karpathy 設想了一種可能的算法,靈感來自人類反思的機制,專門爲 LLMs 設計:
1. 多次嘗試(Rollouts):讓模型針對一個任務做幾次嘗試,每次記錄行爲和結果(獎勵高低)。
2. 反思階段:把這些嘗試的結果塞進上下文窗口,用一個“元提示”(meta-prompt)引導模型分析:“這次哪裏做得好?哪裏不好?下次該怎麼改進?”生成一條明確的“經驗教訓”(lesson),以字符串形式記錄。
3. 更新系統提示:把新生成的“教訓”加到系統提示中,或者存到一個“教訓數據庫”裏,供未來使用。4. 長期優化:爲了避免上下文窗口塞滿這些教訓,可以通過某種方式(類似“睡眠”)把它們蒸餾到模型權重中,形成更高效的直覺。這種方法利用了 LLMs 的獨特優勢——它們能理解和生成語言,能在上下文裏學習新策略。而傳統的 RL(比如在 Atari 遊戲或機器人控制中)沒有這種語言能力,所以無法直接套用這個思路。
Karpathy 認爲,RL 確實比監督微調更“苦澀”,而且還會帶來更多性能提升。但他也相信,RL 只是當前的一條 S 曲線(技術進步的階段性曲線),未來還有更多曲線等待發現。特別是對於 LLMs 這樣有語言能力的模型,可能會有全新的學習範式,超越傳統 RL 的侷限。
這些範式可能跟人類反思、總結、歸納的方式更接近,而且在長任務和複雜問題上更高效。他提到的 ChatGPT 新增的“Memory”功能,可能是一個雛形,但目前只用於個性化定製(比如記住用戶偏好),還沒用於解決複雜問題。Karpathy 的設想是:如果能讓模型自己總結經驗教訓,並在實踐中不斷優化,可能會開啓 AI 智能的新篇章。
Andrej Karpathy個人簡介:
Andrej Karpathy 是人工智能研究機構 OpenAI 的創始成員之一,並在其早期發展階段(2015年至2017年)擔任研究科學家;
2017年6月,他接受埃隆·馬斯克的邀請,離開 OpenAI,加入特斯拉,擔任人工智能和 Autopilot Vision 的總監,後晉升爲 AI 高級總監;
2023年2月,在離開特斯拉一段時間後,Karpathy 宣佈重新加入 OpenAI,參與改進 ChatGPT 的 GPT-4模型。
(轉自:網易科技)
免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。