AI大神Andrej Karpathy訪談："軟件3.0"時代已來，從「氛圍編程」到「代理工程」提升遠超10倍，人類價值迴歸審美

OpenAI聯合創始人Andrej Karpathy在最新訪談中指出，大語言模型正作為「新型計算機」全面重塑計算架構。

4月29日，曾一手主導特斯拉Autopilot開發、並在OpenAI具有舉足輕重地位的AI領軍人物Andrej Karpathy，在由AI Sent主辦的活動上，就當前AI代理的技術躍遷及其對軟硬件生態的深遠影響進行了深度拆解。

Karpathy表示，自去年12月起，他開始意識到以代理為核心的工作流已真正可用，這一轉變標誌着Software 3.0時代的實質到來。他說：

很多人去年對AI的印象還停留在ChatGPT，但你必須重新審視，尤其是從12月開始——事情已經發生了根本性變化。

他同時提出了"代理工程"（agentic engineering）這一新概念，以區別於去年他所命名的"氛圍編程"（vibe coding），前者指的是專業軟件開發中質量標準的延續與加速。

他直言，大量現有代碼和應用程序在新範式下"不應該存在"，而當前多數組織的招聘流程、開發工具和基礎設施，仍在為人類而非代理而設計。

軟件3.0的黎明：底層計算架構的權力交接

科技產業正站在一個從量變到質變的十字路口。

去年12月是一個關鍵的轉折點，Karpathy坦言，面對最新的AI模型，他經歷了深刻的震撼：

系統生成的代碼塊越來越完美，我甚至記不清上一次修改它是什麼時候。我只是越來越信任這個系統......（這讓我）從未感覺自己作為一名程序員如此落後。

這種衝擊是計算範式的徹底顛覆。在Karpathy看來，市場目前低估了這一變化的深度。

他指出，我們正在告別「軟件1.0（寫代碼）」和「軟件2.0（整理數據集訓練神經網絡）」，正式邁入「軟件3.0」時代。

在這個新紀元裏，大語言模型本身就是一台「新型計算機」。他說：

你現在的編程變成了寫提示詞，而在上下文窗口中的內容，就是你操控那個作為解釋器的大語言模型的槓桿，讓它在數字信息空間中執行計算。

更令市場矚目的，是他對未來底層硬件架構演進的大膽預測。目前，神經網絡仍以虛擬化的形式運行在現有的計算機上，但他認為未來這種主客關係將會反轉：

你可以想象，神經網絡將成為主進程，而CPU則變成了某種協處理器。神經網絡將承擔絕大部分的繁重工作。

這意味着，主導全市場資本開支的「智能算力」，其戰略核心地位將在未來進一步固化。

下一代基建：重構「代理原生」生態

當執行和編碼被機器接管，人類的核心價值和未來的基建形態將走向何方？

Karpathy直言：

所有的東西都必須被重寫。

目前互聯網的各種框架和庫的說明文檔仍是「為人類編寫的」，這讓他感到無比煩惱。Karpathy抱怨道：

為什麼還要告訴我怎麼做？我什麼都不想做。我應該複製粘貼什麼文本給我的AI代理？

未來的市場大機會在於構建「代理優先」的基礎設施。

在這個世界裏，系統被拆解為感知世界的「傳感器」和改造世界的「執行器」，數據結構要讓大語言模型高度可讀，機器代理代表個人和機構在雲端進行交互。

在如此高度自動化的未來，人類的核心稀缺性將回歸到審美、判斷力以及最深層的商業理解上。

Karpathy引用了一句令他反覆咀嚼的話作為總結：

你可以外包你的思考，但你無法外包你的理解。

代理工程：遠超「10倍工程師」的產能大爆發

在提升生產力這一市場最關心的維度上，Karpathy區分了兩個核心概念：「氛圍編程（Vibe coding）」與「代理工程（Agentic engineering）」。

他指出，「氛圍編程」抬高了全員開發軟件的下限，而「代理工程」則旨在維持專業軟件的質量上限。

「代理工程」不僅僅是提速，它要求開發者協調那些「有些易錯、帶有隨機性但極其強大」的AI代理，在不犧牲質量的前提下全速前進。

這也將極大拓寬企業產出的想象空間。Karpathy指出:

人們以前常談論‘10倍工程師’，10倍已經不足以形容你所獲得的提速了。在我看來，那些在這個領域表現出色的人，其產出峯值遠超10倍。

面對這種生產力爆發，企業的組織架構和人才篩選邏輯必須重構。

他建議企業拋棄傳統的算法解題面試，轉而考察候選人如何利用多個AI代理協同構建大型項目，並能抵禦其他AI代理的攻擊。

AI商業落地的發力點

對於當前急於尋找AI應用落地場景的創業者和投資者，Karpathy提供了一個極具實操性的評估框架：可驗證性。

目前AI的能力呈現出一種極其怪異的「鋸齒狀」。他舉例表示：

最先進的模型今天能同時重構10萬行的代碼庫或尋找零日漏洞，然而卻告訴我應該步行去50米外的洗車店洗車，這簡直瘋了。

產生這種割裂的原因在於，前沿實驗室（如OpenAI等）將海量強化學習資源傾注在了「數學」和「代碼」等結果易於驗證的領域。

因此，只要置身於結果可驗證的商業場景中，AI就能發揮巨大威力。

Karpathy暗示，市場上仍存在大量高價值，但尚未被頭部實驗室重點關注的可驗證強化學習環境，這正是創業公司進行微調（Fine-tuning）和商業變現的巨大藍海。

以下為播客全文，AI輔助翻譯：

主持人
我們非常榮幸迎來第一位特別嘉賓。他參與構建了現代人工智能，繼而致力於解釋現代人工智能，偶爾也會給它重新命名。他是OpenAI的聯合創始人之一，正是在這間辦公室裏創立了這家公司；當年也正是他讓特斯拉的自動駕駛系統真正跑了起來。他有一種罕見的天賦——能夠讓最複雜的技術變革聽起來既通俗易懂，又順理成章。大家都知道，他去年創造了"氛圍編程（vibe coding）"這個詞。但就在過去幾個月裏，他說了一句更令人震驚的話：他從未像現在這樣覺得自己作為一名程序員已經落伍了。今天的對話就從這裏開始。Andre，感謝你的到來。
Andrej Karpathy
你好，很高興來這裏為大家開個頭。
主持人
就在幾個月前，你說你從未像現在這樣覺得自己作為程序員已經落伍了。從你口中聽到這句話，着實令人喫驚。能跟我們聊聊這背後的感受嗎？是興奮，還是不安？
Andrej Karpathy
兩者都有。首先，我想像很多人一樣，在過去大約一年裏，我一直在使用一些智能體工具，比如Claude Code之類的東西。它在處理代碼片段方面表現很好，雖然有時會出錯，需要手動修改，但總體上還是很有幫助的。
然後，去年十二月是一個明顯的轉折點。我當時在休假，有更多的時間，我想很多人也有類似的體驗。我開始注意到，用最新的模型，輸出的代碼片段直接就是對的，我不斷提更多要求，也依然是對的。我都記不清上次修正它是什麼時候了。我越來越信任這個系統，然後就進入了"氛圍編程"的狀態。
我覺得那真的是一個非常鮮明的轉變。我嘗試在Twitter（也就是X）上強調這一點，因為很多人去年接觸AI的方式還停留在使用ChatGPT這個層面，但你真的需要重新審視，尤其是以十二月為節點，因為事情已經發生了根本性的變化——尤其是在智能體工作流這個維度上，那時它才真正開始好用。從那以後，我就一頭扎進了兔子洞，我的副業項目文件夾裏塞滿了各種稀奇古怪的東西，我就是一直在用AI寫代碼。大概是這麼回事，十二月發生的。自那以後，我就一直在觀察和思考這件事的影響。
主持人
你談了很多關於"LLM是一台新型計算機"的理念——它不只是更好的軟件，而是一種全新的計算範式。軟件1.0是明確的規則，軟件2.0是習得的權重，軟件3.0就是現在這個階段。如果這個框架是對的，那麼一個團隊在真正相信這件事的那一天，會有什麼不同的做法？
Andrej Karpathy
對，確實如此。軟件1.0階段，我在寫代碼；軟件2.0階段，我實際上是通過構建數據集和訓練神經網絡來編程，編程的方式變成了整理數據集、設計目標函數和神經網絡架構。
接下來發生的事情是：當你在足夠大量的任務上訓練這些GPT模型或大語言模型時，由於是在整個互聯網上進行訓練，模型必須同時完成數據集中所有任務，這使它在某種意義上成為了一台可編程的計算機。
軟件3.0階段，你的"編程"變成了"提示詞工程"，而上下文窗口中的內容就是你操控解釋器的槓桿——這裏的解釋器就是LLM，它解釋你的上下文並在數字信息空間中執行計算。這大概就是這個轉變的本質。
有幾個例子讓我對此有了更深切的體會，也許值得分享一下。
當OpenClaw發布時，你要安裝它，通常會期望這是一個shell腳本——運行腳本來完成安裝。但為了兼容衆多不同的平台和不同類型的計算機，這類shell腳本往往會變得極其臃腫複雜。而OpenClaw的安裝方式，實際上是複製一段文本交給你的智能體，由它來完成安裝。這種方式強大得多，因為你工作在軟件3.0的範式之下，不需要精確地逐一說明所有配置細節。智能體有自己的智能，它會理解指令，觀察你的運行環境，採取智能行動讓一切運轉起來，並在循環中自主調試。這強大太多了。
還有一個更極端的例子，來自我構建MenuGen的經歷。MenuGen的想法是：你去餐廳，他們遞給你菜單，但通常沒有圖片，所以你根本不知道那些菜長什麼樣。我想做的是：拍一張菜單的照片，然後獲取每道菜大概的樣子。於是我用"氛圍編程"構建了一個應用，可以上傳照片，做一系列處理，部署在Vercel上，對菜單重新渲染，列出所有菜品，並調用圖像生成模型對每個菜品名稱進行OCR識別，再生成對應的圖片呈現給用戶。
後來我看到了這件事的軟件3.0版本，徹底震驚了我：只需把照片交給Gemini，然後說"用Nana Banana把這些內容疊加到菜單上"。Nana Banana直接返回了一張圖片——就是我拍的那張菜單的照片——但它在像素層面上直接把菜單上各道菜的圖片渲染了出來。這讓我大受震撼，因為我的整個MenuGen其實是多餘的——它工作在舊範式裏，那個應用根本不該存在。軟件3.0範式要原始得多，神經網絡承擔了越來越多的工作，你輸入的是圖片，輸出的也是圖片，中間根本不需要任何應用層。
所以我認為，人們需要重新審視自己的思維框架，不要侷限於現有的範式，不要只把它看作是現有事物的加速版。真正發生的是：有些全新的東西現在成為可能了。回到你說的編程問題，我認為這個問題本身也反映了一種舊有的思維方式——因為這不只是關於編程變得更快，而是更廣泛意義上的信息處理現在都可以被自動化了，它不只關乎代碼。
過去的代碼是在結構化數據上運行的，你在結構化數據上編寫代碼。但比如我的"LLM知識庫"項目，基本上是讓LLM為你的組織或個人生成wiki——這不是一個程序，是過去不可能存在的東西，因為沒有代碼能夠基於一堆事實憑空生成一個知識庫。但現在你可以把這些文檔輸入進去，以不同的方式重新編譯、重新排序，從而創造出新的、有價值的內容——這是對數據的一種重新詮釋。這些都是以前不可能實現的新事物。所以我一直想回歸這樣一個問題：不只是什麼事情現在可以做得更快了，還有什麼是以前根本不可能實現的新機會。我甚至覺得後者更令人興奮。
主持人
我非常喜歡你描繪的MenuGen進化路徑和那種對比，我相信很多人也關注了你從去年十月到今年一二月的編程歷程。如果繼續推演下去，對標九十年代構建網站、二十年代構建移動應用、上一個雲時代構建SaaS的歷史節點，什麼是今天大部分還未被構建、但事後回望會覺得理所當然的東西？
Andrej Karpathy
順着MenuGen的例子說下去，很多代碼其實都不應該存在，神經網絡承擔了絕大部分的工作。我確實覺得這條外推曲線會變得非常奇異。
可以想象，在某種意義上，完全的神經計算機是可能的——想象一種設備，它接收原始視頻和音頻，輸入到本質上是神經網絡的系統中，通過擴散模型渲染出一個界面，那個界面在某種意義上是為那個獨特的時刻量身定製的。
在計算機誕生的早期，人們對計算機究竟會長成什麼樣子其實是困惑的——是像計算器，還是像神經網絡？在五六十年代，這並不顯而易見。當然，我們走了計算器這條路，建立了經典計算體系，而神經網絡目前是虛擬運行在現有計算機之上的。但可以設想，未來這一切會翻轉——神經網絡成為宿主進程，CPU成為協處理器。我們已經看到那張圖表了，神經網絡的算力需求將會超越併成為浮點運算消耗的主導。
所以你可以想象一個非常陌生、非常異類的未來形態：神經網絡承擔絕大多數重活，工具調用只是作為某些確定性任務的歷史遺留附件。真正在主導一切的，是以某種方式相互聯結的神經網絡群。這個外推的終點可能會極其陌生，但我想我們大概率是一步一步走到那裏的。這條路怎麼走，尚待觀察。
主持人
我想聊聊"可驗證性"這個概念——AI會在輸出結果可以被驗證的領域更快、更容易地實現自動化。如果這個框架是對的，什麼工作將會以人們意想不到的速度發生變化？有哪些職業，人們覺得是安全的，但實際上高度可驗證？
Andrej Karpathy
我花了一些時間思考可驗證性這個問題。傳統計算機能輕鬆自動化的，是你能用代碼明確描述的東西；而這一輪大語言模型能輕鬆自動化的，是你能夠驗證的東西。原因在於：前沿實驗室在訓練這些大語言模型時，是在構建巨大的強化學習環境，模型會被給予基於驗證的獎勵信號。正是因為這種訓練方式，這些模型最終形成了一種"鋸齒狀"的能力圖譜——在數學、代碼等可驗證領域能力極強，但在可驗證性較差的領域則相對平淡、表現粗糙。
我寫關於可驗證性的文章，是想理解為什麼這些模型的能力如此不均勻。這部分原因在於實驗室訓練模型的方式，但我認為也與實驗室的側重點有關——他們碰巧放入了哪些數據。有些東西在經濟上更有價值，因此產生了更多的訓練環境，因為實驗室希望模型在那些場景下好用。代碼就是一個典型的例子。很可能存在大量可驗證的環境本可以被納入訓練，但因為它們的實用價值不夠高，就沒有進入數據集。
對我來說，一個最能說明"鋸齒狀智能"的經典例子曾經是："strawberry這個單詞裏有幾個字母r？"模型以答錯著稱。現在的模型已經修正了這個問題，但新的例子來了：我想去一個50米外的洗車店洗車，我應該開車去還是走路去？當今最先進的模型會告訴你走路去，因為太近了。但問題是，你要去的是洗車店啊。
這是多麼奇怪的事——最先進的Claude Opus 4.7可以同時重構十萬行代碼，或者發現零日漏洞，卻告訴我走路去洗車店。這實在令人難以置信。
這種鋸齒狀的能力表明：第一，模型某些地方可能存在根本性的問題；第二，你還是需要參與其中，把它當成工具來使用，保持對它行為的一定掌控。所以我關於可驗證性的所有寫作，歸根結底，是在試圖理解為什麼這些模型的能力是鋸齒狀的，是否有某種規律可循。我認為，答案是某種"可驗證性"與"實驗室關注度"的組合。
再分享一個很能說明問題的軼事：從GPT-3.5到GPT-4，人們注意到模型下棋的能力大幅提升。很多人以為這只是能力的自然演進，但實際情況是——這是公開信息，我在網上看到過——大量棋局數據進入了預訓練集，僅僅因為數據分佈的變化，模型的下棋能力就遠超正常進步幅度。是OpenAI的某個人決定加入這些數據，於是這項能力就突然激增了。
這就是我為什麼強調這個維度：我們在某種程度上是受實驗室決策左右的，他們碰巧放進了什麼，你就得到什麼。你拿到的是一個沒有說明書的東西，它在某些情況下好用，在某些情況下不好用，你需要去探索它。
如果你的應用恰好落在強化學習訓練覆蓋的迴路上，你會如魚得水；如果落在數據分佈之外，你就會舉步維艱。你需要搞清楚你的應用落在哪種情況，如果不在覆蓋的迴路裏，就真的需要認真考慮微調，做一些自己的工作，因為指望大語言模型開箱即用是不現實的。
主持人
我想稍後再回到"鋸齒狀智能"這個話題。如果你今天是一位創始人，正在考慮創業，你找到了一個你認為可解決的問題，這個領域是可驗證的。但你環顧四周發現，實驗室已經在最顯而易見的方向上——數學、代碼等——獲得了逃逸速度。你對在座的創始人有什麼建議？
Andrej Karpathy
我想這可以回到上一個問題。可驗證性讓某件事在當前範式下變得可行，因為你可以向它注入大量強化學習。也許可以這樣理解：即使實驗室沒有直接關注某個領域，這一點依然成立。如果你處於一個可驗證的設定中，能夠創建強化學習環境和數據樣本，這實際上為你開闢了自己做微調的道路，你可能會從中獲益。
這是一種在技術上確實可行的路徑：如果你有大量多樣化的強化學習環境數據，可以使用你喜歡的微調框架，拉下這個槓桿，得到表現相當不錯的東西。我不想具體說是哪些例子，但我確實認為存在一些非常有價值的強化學習環境，還沒有被納入訓練的……
說到這裏，我不想在台上故意賣關子，但確實存在一些這樣的例子。
主持人
那反過來，什麼事情仍然只是看起來可以被自動化，實際上距離實現還很遠？
Andrej Karpathy
我確實認為，幾乎所有事情最終都可以被設計成可驗證的，只是有些容易有些難。即便是寫作這類事情，也可以設想用一組LLM評委來打分，大概也能得到相當不錯的結果。所以更多是難度的問題，而不是能否做到的問題。我認為，歸根結底，一切都是可以被自動化的。
主持人
好的，那麼去年你創造了"氛圍編程"這個詞。今天我們身處一個感覺更嚴肅、更嚴謹的工程化世界。你認為兩者的區別是什麼？你會把我們現在所處的這個階段叫做什麼？
Andrej Karpathy
我認為，氛圍編程是關於提升所有人在軟件方面的能力下限——下限整體上升，每個人都可以用氛圍編程做任何事，這非常了不起。
而"智能體工程（agentic engineering）"是關於在此基礎上維持專業軟件原有的質量標準。你不能因為氛圍編程而引入安全漏洞，你仍然和以前一樣對自己的軟件負責。但你能不能更快？劇透：可以。但怎麼才能做到位呢？
當我把它稱為"智能體工程"時，是因為我認為這確實是一門工程學科。你有這些智能體——它們是某種"鋸齒狀"的存在，有些不可靠，有些隨機性，但極其強大。問題是如何在不犧牲質量標準的前提下，協調它們來提速。做好這件事，就是智能體工程的領域。
我把這兩個概念看作是不同的：一個是關於提升下限，另一個是關於突破上限。我正在看到的是，智能體工程師的能力上限非常高。以前人們談論"10倍工程師"，我認為現在被放大的遠不止這個數。10倍根本不是你能獲得的加速幅度，從我現在的視角來看，真正精通此道的人的產出，要遠遠超過10倍。
主持人
我很喜歡這個框架。去年Sam Altman來AI Sent時，說了一句讓人印象深刻的話：不同世代的人使用ChatGPT的方式不同。三十多歲的人把它當谷歌搜索的替代品，而十幾歲的年輕人把ChatGPT當作進入互聯網的入口。在今天的編程場景下，這個類比是什麼？如果我們觀察兩個人用OpenAI的Codex或Anthropic的Claude Code寫代碼，一個是普通水平，一個是真正的AI原生程序員，你怎麼描述兩者的差異？
Andrej Karpathy
我認為核心在於：儘可能充分地利用手頭可用的工具，善用它們的所有功能，並且在自己的工作流程上持續投入。就像以前的工程師會把VIM或VS Code用到極致，現在就是把Claude Code或Codex用到極致。所以本質上就是在自己的工具設定上投入，並善用所有可用的工具。
說到這裏，有個相關的想法值得一提。如果很多團隊現在要招聘智能體工程師，我認為大多數人的招聘流程還沒有為此進行相應的改變。如果你還在出謎題讓人來解，那還是老範式。新的招聘流程應該是：給我一個大項目，看你能不能把它做好——比如寫一個Twitter克隆，做得好、做得安全，然後讓智能體在上面模擬用戶活動，再用多個Codex實例來嘗試攻擊你部署的網站，如果攻破了就算失敗。我想這大概就是未來的樣子——觀察候選人在這種情境下構建大型項目、綜合運用工具的表現。
主持人
隨着智能體能做的事情越來越多，你認為哪種人類技能會變得更有價值而不是更不值錢？
Andrej Karpathy
目前來說，智能體基本上還是"實習生"級別的存在——能力出衆，但還不穩定。所以你仍然需要負責把握審美、判斷力、品味，以及適度的監督。
我最喜歡的一個例子，非常能說明智能體的奇怪之處：在MenuGen裏，用戶用Google賬號註冊，但用Stripe賬號購買積分——兩者各有自己的郵箱。結果我的智能體在處理積分充值時，試圖用Stripe的郵箱來匹配Google郵箱，因為沒有持久化的用戶ID，它就嘗試用郵箱來關聯兩個賬戶。但問題是，用戶完全可以在Stripe和Google用不同的郵箱，這樣資金就無法關聯到賬戶了。這種錯誤非常奇怪——為什麼要用郵箱來做跨系統的身份關聯？郵箱本來就可以是任意的，可以不一樣。
這類錯誤正是智能體現在還會犯的：你需要親自負責規格設計和整體規劃。說到"計劃模式"，它當然很有用，但我覺得這裏有更普遍的道理：你需要和智能體一起設計一份非常詳盡的規格說明，也許就是以文檔的形式，然後讓智能體來寫，而你負責監督和把控頂層的架構決策，智能體負責底層的實現細節。
再比如，關於神經網絡中的張量操作，PyTorch、NumPy、Pandas之間有大量細節——keepdims還是keepdim，dim還是axis，reshape還是permute還是transpose——我已經記不住這些了，因為不需要記。這些細節可以交給"實習生"，因為它們的記憶力極好。但你仍然需要理解，比如說，底層有一個張量，有一個視圖，你可以操作同一份內存的不同視圖，或者你可以擁有不同的存儲——後者效率更低。你仍然需要理解這些事情的本質，這樣纔不會做出多餘的內存拷貝之類的低效操作。
所以你負責品味、工程設計、架構，確保整體方向是對的，確保需求是正確的，確保比如"我們要用唯一的用戶ID來關聯所有數據"——這類設計決策是你來做的。工程師負責填空，這大概就是我們目前的處境。
主持人
你覺得這種品味和判斷力隨着時間推移會變得不那麼重要嗎？還是說，它的上限會持續提升？
Andrej Karpathy
我確實希望這方面能有所改善。目前它無法改善，我認為還是因為它沒有被納入強化學習——可能沒有相應的美感獎勵，或者現有的獎勵不夠好。
說實話，當我真正看代碼的時候，有時會有點心驚肉跳——不是每次輸出的代碼都特別好，往往很臃腫，大量複製粘貼，有一些脆弱的抽象，雖然能跑，但真的很醜。
一個很能說明問題的例子是nanoGPT項目——我一直在嘗試把LLM訓練代碼簡化到極致。模型在這件事上非常糟糕，沒有能力做到。我不斷嘗試提示大語言模型去進一步簡化，但就是不行。你感覺自己完全在強化學習迴路之外，明顯是在硬推，根本不是那種行雲流水的狀態。
所以我認為，人類現在仍然是這方面的主導者，但從根本上說，並沒有什麼原則性的障礙阻止這一點改變，只是實驗室還沒有做到這件事而已。
主持人
我想回到"鋸齒狀智能"這個話題。你寫過一篇很有啓發性的文章，講到"動物與幽靈"的對比——我們構建的不是動物，而是在召喚幽靈。這些幽靈是由數據和獎勵函數塑造的鋸齒狀智能體，而非由內在驅動、樂趣、好奇心或賦權感所驅動——那些是進化出來的東西。這個框架為何重要？它對我們構建、部署、評估乃至信任這些系統的方式，究竟改變了什麼？
Andrej Karpathy
我寫這篇文章是因為我想搞清楚這些東西究竟是什麼。如果你對它們有一個準確的認知模型，你就能更好地使用它們。我不確定這個框架是否有很強的實用性，可能多少有些哲學意味，但我覺得它的核心在於：接受這樣一個事實——這些東西不是動物智能。如果你對它們大喊大叫，它們不會表現得更好或更差，毫無影響。這一切都只是統計模擬迴路，基底是預訓練——統計學，然後在上面疊加強化學習。
也許這只是一種心態——我帶着什麼樣的心態去面對它，什麼可能有效，什麼可能無效，如何調整它。我不能說我已經總結出"這裏有五條明確的結論可以讓你的系統更好"，更多是對它保持一種審慎的態度，隨着時間推移慢慢摸索。
主持人
那就是起點。好，你現在深度參與的是那種不只是聊天的智能體——它們有真實的權限，有本地上下文，能代表你採取行動。當我們都開始生活在這樣的世界裏，這個世界會是什麼樣子？
Andrej Karpathy
我想在座很多人都對原生智能體環境感到興奮。所有東西都必須被重寫——目前一切在根本上都還是為人類設計的，需要重新遷移。我現在使用的各種框架和庫，它們的文檔在根本上仍然是寫給人看的。這是我最大的抱怨：為什麼還有人告訴我該怎麼操作？我不想自己動手。我想知道的是：我應該把什麼複製粘貼給我的智能體？每次看到"請訪問這個URL"之類的指引，就覺得很彆扭。
我想，每個人都在思考這樣一個問題：如何把需要完成的工作流分解成對世界的感知和對世界的執行？如何讓一切對智能體友好？基本上就是：首先面向智能體描述它，圍繞對LLM高度可讀的數據結構構建大量自動化。
我希望看到大量面向智能體的基礎設施。以MenuGen為例，那篇博文裏很大一部分的麻煩不是寫代碼本身，而是部署——我要跟各種服務打交道，配置DNS，在各個設定菜單裏來回跳，非常煩人。我希望的是：我給一個LLM一條提示，它就把MenuGen構建出來，而且自動部署好，我不需要碰任何東西，它就在網上跑起來了。這大概是一個好的測試標準，用來判斷我們的基礎設施是否正在變得越來越對智能體友好。
最終，我認為我們正在走向一個世界，每個人和每個組織都有自己的智能體代理。我的智能體和你的智能體互相溝通，搞定會議細節之類的事情。我覺得大致的方向就是這樣，在座的大家對此都感到興奮，這沒錯。
主持人
我非常喜歡"感知器與執行器"這個比喻，這個思路真的很有意思。好，我想以教育這個話題來結束，因為你大概是世界上最擅長把複雜技術概念講清楚的人之一，也非常深思熟慮地思考過如何圍繞這些內容設計教育。當智能變得廉價，在AI的下一個時代，什麼依然值得深入學習？
Andrej Karpathy
最近有一條推文深深觸動了我，我幾乎每隔一天就會想起它。大意是：你可以外包你的思考，但你無法外包你的理解。
主持人
這話說得真好。
Andrej Karpathy
是的，因為我仍然是這個系統的一部分，信息仍然需要進入我的大腦。我越來越感覺自己成了瓶頸——僅僅是"知道"這件事本身就成了瓶頸：我們為什麼要構建這個？有什麼價值？怎麼指揮我的智能體？
所以我仍然認為，最終必須有某種力量來指導思考和處理，而那個力量在根本上仍然受到"理解"的約束。這也是我為什麼對LLM知識庫感到興奮——因為它是一種幫我消化信息的方式。每當我看到對同一份信息的不同視角和切入方式，我都覺得自己獲得了洞見。本質上這是一種針對固定數據的合成數據生成。我真的很享受這個過程：讀一篇文章，它進入我的wiki，然後我去問各種問題，探索不同角度。
這些工具，在某種意義上是增強理解的工具，而理解仍然是一種瓶頸——正是因為沒有理解，你就無法做一個好的"導演"。大語言模型本身當然不擅長理解，這仍然是你獨有的核心能力。所以我認為，增強理解的工具，是極其有趣和令人興奮的方向。
主持人
期待幾年後再次相聚，到時候看看我們是否已經被徹底自動化出局，連理解本身也被接管了。非常感謝你的到來，Andre，真的很感激。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

AI大神Andrej Karpathy訪談："軟件3.0"時代已來，從「氛圍編程」到「代理工程」提升遠超10倍，人類價值迴歸審美

軟件3.0的黎明：底層計算架構的權力交接

下一代基建：重構「代理原生」生態

代理工程：遠超「10倍工程師」的產能大爆發

AI商業落地的發力點

熱議股票