AI大神Andrej Karpathy訪談:"軟件3.0"時代已來,從「氛圍編程」到「代理工程」提升遠超10倍,人類價值迴歸審美

華爾街見聞
04/30

OpenAI聯合創始人Andrej Karpathy在最新訪談中指出,大語言模型正作為「新型計算機」全面重塑計算架構。

4月29日,曾一手主導特斯拉Autopilot開發、並在OpenAI具有舉足輕重地位的AI領軍人物Andrej Karpathy,在由AI Sent主辦的活動上,就當前AI代理的技術躍遷及其對軟硬件生態的深遠影響進行了深度拆解。

Karpathy表示,自去年12月起,他開始意識到以代理為核心的工作流已真正可用,這一轉變標誌着Software 3.0時代的實質到來。他說:

很多人去年對AI的印象還停留在ChatGPT,但你必須重新審視,尤其是從12月開始——事情已經發生了根本性變化。

他同時提出了"代理工程"(agentic engineering)這一新概念,以區別於去年他所命名的"氛圍編程"(vibe coding),前者指的是專業軟件開發中質量標準的延續與加速。

他直言,大量現有代碼和應用程序在新範式下"不應該存在",而當前多數組織的招聘流程、開發工具和基礎設施,仍在為人類而非代理而設計。

軟件3.0的黎明:底層計算架構的權力交接

科技產業正站在一個從量變到質變的十字路口。

去年12月是一個關鍵的轉折點,Karpathy坦言,面對最新的AI模型,他經歷了深刻的震撼:

系統生成的代碼塊越來越完美,我甚至記不清上一次修改它是什麼時候。我只是越來越信任這個系統......(這讓我)從未感覺自己作為一名程序員如此落後。

這種衝擊是計算範式的徹底顛覆。在Karpathy看來,市場目前低估了這一變化的深度。

他指出,我們正在告別「軟件1.0(寫代碼)」和「軟件2.0(整理數據集訓練神經網絡)」,正式邁入「軟件3.0」時代。

在這個新紀元裏,大語言模型本身就是一台「新型計算機」。他說:

你現在的編程變成了寫提示詞,而在上下文窗口中的內容,就是你操控那個作為解釋器的大語言模型的槓桿,讓它在數字信息空間中執行計算。

更令市場矚目的,是他對未來底層硬件架構演進的大膽預測。目前,神經網絡仍以虛擬化的形式運行在現有的計算機上,但他認為未來這種主客關係將會反轉:

你可以想象,神經網絡將成為主進程,而CPU則變成了某種協處理器。神經網絡將承擔絕大部分的繁重工作。

這意味着,主導全市場資本開支的「智能算力」,其戰略核心地位將在未來進一步固化。

下一代基建:重構「代理原生」生態

當執行和編碼被機器接管,人類的核心價值和未來的基建形態將走向何方?

Karpathy直言:

所有的東西都必須被重寫。

目前互聯網的各種框架和庫的說明文檔仍是「為人類編寫的」,這讓他感到無比煩惱。Karpathy抱怨道:

為什麼還要告訴我怎麼做?我什麼都不想做。我應該複製粘貼什麼文本給我的AI代理?

未來的市場大機會在於構建「代理優先」的基礎設施。

在這個世界裏,系統被拆解為感知世界的「傳感器」和改造世界的「執行器」,數據結構要讓大語言模型高度可讀,機器代理代表個人和機構在雲端進行交互。

在如此高度自動化的未來,人類的核心稀缺性將回歸到審美、判斷力以及最深層的商業理解上。

Karpathy引用了一句令他反覆咀嚼的話作為總結:

你可以外包你的思考,但你無法外包你的理解。

代理工程:遠超「10倍工程師」的產能大爆發

在提升生產力這一市場最關心的維度上,Karpathy區分了兩個核心概念:「氛圍編程(Vibe coding)」與「代理工程(Agentic engineering)」。

他指出,「氛圍編程」抬高了全員開發軟件的下限,而「代理工程」則旨在維持專業軟件的質量上限。

「代理工程」不僅僅是提速,它要求開發者協調那些「有些易錯、帶有隨機性但極其強大」的AI代理,在不犧牲質量的前提下全速前進。

這也將極大拓寬企業產出的想象空間。Karpathy指出:

人們以前常談論‘10倍工程師’,10倍已經不足以形容你所獲得的提速了。在我看來,那些在這個領域表現出色的人,其產出峯值遠超10倍。

面對這種生產力爆發,企業的組織架構和人才篩選邏輯必須重構。

他建議企業拋棄傳統的算法解題面試,轉而考察候選人如何利用多個AI代理協同構建大型項目,並能抵禦其他AI代理的攻擊。

AI商業落地的發力點

對於當前急於尋找AI應用落地場景的創業者和投資者,Karpathy提供了一個極具實操性的評估框架:可驗證性。

目前AI的能力呈現出一種極其怪異的「鋸齒狀」。他舉例表示:

最先進的模型今天能同時重構10萬行的代碼庫或尋找零日漏洞,然而卻告訴我應該步行去50米外的洗車店洗車,這簡直瘋了。

產生這種割裂的原因在於,前沿實驗室(如OpenAI等)將海量強化學習資源傾注在了「數學」和「代碼」等結果易於驗證的領域。

因此,只要置身於結果可驗證的商業場景中,AI就能發揮巨大威力。

Karpathy暗示,市場上仍存在大量高價值,但尚未被頭部實驗室重點關注的可驗證強化學習環境,這正是創業公司進行微調(Fine-tuning)和商業變現的巨大藍海。

以下為播客全文,AI輔助翻譯:

主持人

我們非常榮幸迎來第一位特別嘉賓。他參與構建了現代人工智能,繼而致力於解釋現代人工智能,偶爾也會給它重新命名。他是OpenAI的聯合創始人之一,正是在這間辦公室裏創立了這家公司;當年也正是他讓特斯拉的自動駕駛系統真正跑了起來。他有一種罕見的天賦——能夠讓最複雜的技術變革聽起來既通俗易懂,又順理成章。大家都知道,他去年創造了"氛圍編程(vibe coding)"這個詞。但就在過去幾個月裏,他說了一句更令人震驚的話:他從未像現在這樣覺得自己作為一名程序員已經落伍了。今天的對話就從這裏開始。Andre,感謝你的到來。

Andrej Karpathy

你好,很高興來這裏為大家開個頭。

主持人

就在幾個月前,你說你從未像現在這樣覺得自己作為程序員已經落伍了。從你口中聽到這句話,着實令人喫驚。能跟我們聊聊這背後的感受嗎?是興奮,還是不安?

Andrej Karpathy

兩者都有。首先,我想像很多人一樣,在過去大約一年裏,我一直在使用一些智能體工具,比如Claude Code之類的東西。它在處理代碼片段方面表現很好,雖然有時會出錯,需要手動修改,但總體上還是很有幫助的。

然後,去年十二月是一個明顯的轉折點。我當時在休假,有更多的時間,我想很多人也有類似的體驗。我開始注意到,用最新的模型,輸出的代碼片段直接就是對的,我不斷提更多要求,也依然是對的。我都記不清上次修正它是什麼時候了。我越來越信任這個系統,然後就進入了"氛圍編程"的狀態。

我覺得那真的是一個非常鮮明的轉變。我嘗試在Twitter(也就是X)上強調這一點,因為很多人去年接觸AI的方式還停留在使用ChatGPT這個層面,但你真的需要重新審視,尤其是以十二月為節點,因為事情已經發生了根本性的變化——尤其是在智能體工作流這個維度上,那時它才真正開始好用。從那以後,我就一頭扎進了兔子洞,我的副業項目文件夾裏塞滿了各種稀奇古怪的東西,我就是一直在用AI寫代碼。大概是這麼回事,十二月發生的。自那以後,我就一直在觀察和思考這件事的影響。

主持人

你談了很多關於"LLM是一台新型計算機"的理念——它不只是更好的軟件,而是一種全新的計算範式。軟件1.0是明確的規則,軟件2.0是習得的權重,軟件3.0就是現在這個階段。如果這個框架是對的,那麼一個團隊在真正相信這件事的那一天,會有什麼不同的做法?

Andrej Karpathy

對,確實如此。軟件1.0階段,我在寫代碼;軟件2.0階段,我實際上是通過構建數據集和訓練神經網絡來編程,編程的方式變成了整理數據集、設計目標函數和神經網絡架構。

接下來發生的事情是:當你在足夠大量的任務上訓練這些GPT模型或大語言模型時,由於是在整個互聯網上進行訓練,模型必須同時完成數據集中所有任務,這使它在某種意義上成為了一台可編程的計算機。

軟件3.0階段,你的"編程"變成了"提示詞工程",而上下文窗口中的內容就是你操控解釋器的槓桿——這裏的解釋器就是LLM,它解釋你的上下文並在數字信息空間中執行計算。這大概就是這個轉變的本質。

有幾個例子讓我對此有了更深切的體會,也許值得分享一下。

當OpenClaw發布時,你要安裝它,通常會期望這是一個shell腳本——運行腳本來完成安裝。但為了兼容衆多不同的平台和不同類型的計算機,這類shell腳本往往會變得極其臃腫複雜。而OpenClaw的安裝方式,實際上是複製一段文本交給你的智能體,由它來完成安裝。這種方式強大得多,因為你工作在軟件3.0的範式之下,不需要精確地逐一說明所有配置細節。智能體有自己的智能,它會理解指令,觀察你的運行環境,採取智能行動讓一切運轉起來,並在循環中自主調試。這強大太多了。

還有一個更極端的例子,來自我構建MenuGen的經歷。MenuGen的想法是:你去餐廳,他們遞給你菜單,但通常沒有圖片,所以你根本不知道那些菜長什麼樣。我想做的是:拍一張菜單的照片,然後獲取每道菜大概的樣子。於是我用"氛圍編程"構建了一個應用,可以上傳照片,做一系列處理,部署在Vercel上,對菜單重新渲染,列出所有菜品,並調用圖像生成模型對每個菜品名稱進行OCR識別,再生成對應的圖片呈現給用戶。

後來我看到了這件事的軟件3.0版本,徹底震驚了我:只需把照片交給Gemini,然後說"用Nana Banana把這些內容疊加到菜單上"。Nana Banana直接返回了一張圖片——就是我拍的那張菜單的照片——但它在像素層面上直接把菜單上各道菜的圖片渲染了出來。這讓我大受震撼,因為我的整個MenuGen其實是多餘的——它工作在舊範式裏,那個應用根本不該存在。軟件3.0範式要原始得多,神經網絡承擔了越來越多的工作,你輸入的是圖片,輸出的也是圖片,中間根本不需要任何應用層。

所以我認為,人們需要重新審視自己的思維框架,不要侷限於現有的範式,不要只把它看作是現有事物的加速版。真正發生的是:有些全新的東西現在成為可能了。回到你說的編程問題,我認為這個問題本身也反映了一種舊有的思維方式——因為這不只是關於編程變得更快,而是更廣泛意義上的信息處理現在都可以被自動化了,它不只關乎代碼。

過去的代碼是在結構化數據上運行的,你在結構化數據上編寫代碼。但比如我的"LLM知識庫"項目,基本上是讓LLM為你的組織或個人生成wiki——這不是一個程序,是過去不可能存在的東西,因為沒有代碼能夠基於一堆事實憑空生成一個知識庫。但現在你可以把這些文檔輸入進去,以不同的方式重新編譯、重新排序,從而創造出新的、有價值的內容——這是對數據的一種重新詮釋。這些都是以前不可能實現的新事物。所以我一直想回歸這樣一個問題:不只是什麼事情現在可以做得更快了,還有什麼是以前根本不可能實現的新機會。我甚至覺得後者更令人興奮。

主持人

我非常喜歡你描繪的MenuGen進化路徑和那種對比,我相信很多人也關注了你從去年十月到今年一二月的編程歷程。如果繼續推演下去,對標九十年代構建網站、二十年代構建移動應用、上一個雲時代構建SaaS的歷史節點,什麼是今天大部分還未被構建、但事後回望會覺得理所當然的東西?

Andrej Karpathy

順着MenuGen的例子說下去,很多代碼其實都不應該存在,神經網絡承擔了絕大部分的工作。我確實覺得這條外推曲線會變得非常奇異。

可以想象,在某種意義上,完全的神經計算機是可能的——想象一種設備,它接收原始視頻和音頻,輸入到本質上是神經網絡的系統中,通過擴散模型渲染出一個界面,那個界面在某種意義上是為那個獨特的時刻量身定製的。

在計算機誕生的早期,人們對計算機究竟會長成什麼樣子其實是困惑的——是像計算器,還是像神經網絡?在五六十年代,這並不顯而易見。當然,我們走了計算器這條路,建立了經典計算體系,而神經網絡目前是虛擬運行在現有計算機之上的。但可以設想,未來這一切會翻轉——神經網絡成為宿主進程,CPU成為協處理器。我們已經看到那張圖表了,神經網絡的算力需求將會超越併成為浮點運算消耗的主導。

所以你可以想象一個非常陌生、非常異類的未來形態:神經網絡承擔絕大多數重活,工具調用只是作為某些確定性任務的歷史遺留附件。真正在主導一切的,是以某種方式相互聯結的神經網絡群。這個外推的終點可能會極其陌生,但我想我們大概率是一步一步走到那裏的。這條路怎麼走,尚待觀察。

主持人

我想聊聊"可驗證性"這個概念——AI會在輸出結果可以被驗證的領域更快、更容易地實現自動化。如果這個框架是對的,什麼工作將會以人們意想不到的速度發生變化?有哪些職業,人們覺得是安全的,但實際上高度可驗證?

Andrej Karpathy

我花了一些時間思考可驗證性這個問題。傳統計算機能輕鬆自動化的,是你能用代碼明確描述的東西;而這一輪大語言模型能輕鬆自動化的,是你能夠驗證的東西。原因在於:前沿實驗室在訓練這些大語言模型時,是在構建巨大的強化學習環境,模型會被給予基於驗證的獎勵信號。正是因為這種訓練方式,這些模型最終形成了一種"鋸齒狀"的能力圖譜——在數學、代碼等可驗證領域能力極強,但在可驗證性較差的領域則相對平淡、表現粗糙。

我寫關於可驗證性的文章,是想理解為什麼這些模型的能力如此不均勻。這部分原因在於實驗室訓練模型的方式,但我認為也與實驗室的側重點有關——他們碰巧放入了哪些數據。有些東西在經濟上更有價值,因此產生了更多的訓練環境,因為實驗室希望模型在那些場景下好用。代碼就是一個典型的例子。很可能存在大量可驗證的環境本可以被納入訓練,但因為它們的實用價值不夠高,就沒有進入數據集。

對我來說,一個最能說明"鋸齒狀智能"的經典例子曾經是:"strawberry這個單詞裏有幾個字母r?"模型以答錯著稱。現在的模型已經修正了這個問題,但新的例子來了:我想去一個50米外的洗車店洗車,我應該開車去還是走路去?當今最先進的模型會告訴你走路去,因為太近了。但問題是,你要去的是洗車店啊。

這是多麼奇怪的事——最先進的Claude Opus 4.7可以同時重構十萬行代碼,或者發現零日漏洞,卻告訴我走路去洗車店。這實在令人難以置信。

這種鋸齒狀的能力表明:第一,模型某些地方可能存在根本性的問題;第二,你還是需要參與其中,把它當成工具來使用,保持對它行為的一定掌控。所以我關於可驗證性的所有寫作,歸根結底,是在試圖理解為什麼這些模型的能力是鋸齒狀的,是否有某種規律可循。我認為,答案是某種"可驗證性"與"實驗室關注度"的組合。

再分享一個很能說明問題的軼事:從GPT-3.5到GPT-4,人們注意到模型下棋的能力大幅提升。很多人以為這只是能力的自然演進,但實際情況是——這是公開信息,我在網上看到過——大量棋局數據進入了預訓練集,僅僅因為數據分佈的變化,模型的下棋能力就遠超正常進步幅度。是OpenAI的某個人決定加入這些數據,於是這項能力就突然激增了。

這就是我為什麼強調這個維度:我們在某種程度上是受實驗室決策左右的,他們碰巧放進了什麼,你就得到什麼。你拿到的是一個沒有說明書的東西,它在某些情況下好用,在某些情況下不好用,你需要去探索它。

如果你的應用恰好落在強化學習訓練覆蓋的迴路上,你會如魚得水;如果落在數據分佈之外,你就會舉步維艱。你需要搞清楚你的應用落在哪種情況,如果不在覆蓋的迴路裏,就真的需要認真考慮微調,做一些自己的工作,因為指望大語言模型開箱即用是不現實的。

主持人

我想稍後再回到"鋸齒狀智能"這個話題。如果你今天是一位創始人,正在考慮創業,你找到了一個你認為可解決的問題,這個領域是可驗證的。但你環顧四周發現,實驗室已經在最顯而易見的方向上——數學、代碼等——獲得了逃逸速度。你對在座的創始人有什麼建議?

Andrej Karpathy

我想這可以回到上一個問題。可驗證性讓某件事在當前範式下變得可行,因為你可以向它注入大量強化學習。也許可以這樣理解:即使實驗室沒有直接關注某個領域,這一點依然成立。如果你處於一個可驗證的設定中,能夠創建強化學習環境和數據樣本,這實際上為你開闢了自己做微調的道路,你可能會從中獲益。

這是一種在技術上確實可行的路徑:如果你有大量多樣化的強化學習環境數據,可以使用你喜歡的微調框架,拉下這個槓桿,得到表現相當不錯的東西。我不想具體說是哪些例子,但我確實認為存在一些非常有價值的強化學習環境,還沒有被納入訓練的……

說到這裏,我不想在台上故意賣關子,但確實存在一些這樣的例子。

主持人

那反過來,什麼事情仍然只是看起來可以被自動化,實際上距離實現還很遠?

Andrej Karpathy

我確實認為,幾乎所有事情最終都可以被設計成可驗證的,只是有些容易有些難。即便是寫作這類事情,也可以設想用一組LLM評委來打分,大概也能得到相當不錯的結果。所以更多是難度的問題,而不是能否做到的問題。我認為,歸根結底,一切都是可以被自動化的。

主持人

好的,那麼去年你創造了"氛圍編程"這個詞。今天我們身處一個感覺更嚴肅、更嚴謹的工程化世界。你認為兩者的區別是什麼?你會把我們現在所處的這個階段叫做什麼?

Andrej Karpathy

我認為,氛圍編程是關於提升所有人在軟件方面的能力下限——下限整體上升,每個人都可以用氛圍編程做任何事,這非常了不起。

而"智能體工程(agentic engineering)"是關於在此基礎上維持專業軟件原有的質量標準。你不能因為氛圍編程而引入安全漏洞,你仍然和以前一樣對自己的軟件負責。但你能不能更快?劇透:可以。但怎麼才能做到位呢?

當我把它稱為"智能體工程"時,是因為我認為這確實是一門工程學科。你有這些智能體——它們是某種"鋸齒狀"的存在,有些不可靠,有些隨機性,但極其強大。問題是如何在不犧牲質量標準的前提下,協調它們來提速。做好這件事,就是智能體工程的領域。

我把這兩個概念看作是不同的:一個是關於提升下限,另一個是關於突破上限。我正在看到的是,智能體工程師的能力上限非常高。以前人們談論"10倍工程師",我認為現在被放大的遠不止這個數。10倍根本不是你能獲得的加速幅度,從我現在的視角來看,真正精通此道的人的產出,要遠遠超過10倍。

主持人

我很喜歡這個框架。去年Sam Altman來AI Sent時,說了一句讓人印象深刻的話:不同世代的人使用ChatGPT的方式不同。三十多歲的人把它當谷歌搜索的替代品,而十幾歲的年輕人把ChatGPT當作進入互聯網的入口。在今天的編程場景下,這個類比是什麼?如果我們觀察兩個人用OpenAI的Codex或Anthropic的Claude Code寫代碼,一個是普通水平,一個是真正的AI原生程序員,你怎麼描述兩者的差異?

Andrej Karpathy

我認為核心在於:儘可能充分地利用手頭可用的工具,善用它們的所有功能,並且在自己的工作流程上持續投入。就像以前的工程師會把VIM或VS Code用到極致,現在就是把Claude Code或Codex用到極致。所以本質上就是在自己的工具設定上投入,並善用所有可用的工具。

說到這裏,有個相關的想法值得一提。如果很多團隊現在要招聘智能體工程師,我認為大多數人的招聘流程還沒有為此進行相應的改變。如果你還在出謎題讓人來解,那還是老範式。新的招聘流程應該是:給我一個大項目,看你能不能把它做好——比如寫一個Twitter克隆,做得好、做得安全,然後讓智能體在上面模擬用戶活動,再用多個Codex實例來嘗試攻擊你部署的網站,如果攻破了就算失敗。我想這大概就是未來的樣子——觀察候選人在這種情境下構建大型項目、綜合運用工具的表現。

主持人

隨着智能體能做的事情越來越多,你認為哪種人類技能會變得更有價值而不是更不值錢?

Andrej Karpathy

目前來說,智能體基本上還是"實習生"級別的存在——能力出衆,但還不穩定。所以你仍然需要負責把握審美、判斷力、品味,以及適度的監督。

我最喜歡的一個例子,非常能說明智能體的奇怪之處:在MenuGen裏,用戶用Google賬號註冊,但用Stripe賬號購買積分——兩者各有自己的郵箱。結果我的智能體在處理積分充值時,試圖用Stripe的郵箱來匹配Google郵箱,因為沒有持久化的用戶ID,它就嘗試用郵箱來關聯兩個賬戶。但問題是,用戶完全可以在Stripe和Google用不同的郵箱,這樣資金就無法關聯到賬戶了。這種錯誤非常奇怪——為什麼要用郵箱來做跨系統的身份關聯?郵箱本來就可以是任意的,可以不一樣。

這類錯誤正是智能體現在還會犯的:你需要親自負責規格設計和整體規劃。說到"計劃模式",它當然很有用,但我覺得這裏有更普遍的道理:你需要和智能體一起設計一份非常詳盡的規格說明,也許就是以文檔的形式,然後讓智能體來寫,而你負責監督和把控頂層的架構決策,智能體負責底層的實現細節。

再比如,關於神經網絡中的張量操作,PyTorch、NumPy、Pandas之間有大量細節——keepdims還是keepdim,dim還是axis,reshape還是permute還是transpose——我已經記不住這些了,因為不需要記。這些細節可以交給"實習生",因為它們的記憶力極好。但你仍然需要理解,比如說,底層有一個張量,有一個視圖,你可以操作同一份內存的不同視圖,或者你可以擁有不同的存儲——後者效率更低。你仍然需要理解這些事情的本質,這樣纔不會做出多餘的內存拷貝之類的低效操作。

所以你負責品味、工程設計、架構,確保整體方向是對的,確保需求是正確的,確保比如"我們要用唯一的用戶ID來關聯所有數據"——這類設計決策是你來做的。工程師負責填空,這大概就是我們目前的處境。

主持人

你覺得這種品味和判斷力隨着時間推移會變得不那麼重要嗎?還是說,它的上限會持續提升?

Andrej Karpathy

我確實希望這方面能有所改善。目前它無法改善,我認為還是因為它沒有被納入強化學習——可能沒有相應的美感獎勵,或者現有的獎勵不夠好。

說實話,當我真正看代碼的時候,有時會有點心驚肉跳——不是每次輸出的代碼都特別好,往往很臃腫,大量複製粘貼,有一些脆弱的抽象,雖然能跑,但真的很醜。

一個很能說明問題的例子是nanoGPT項目——我一直在嘗試把LLM訓練代碼簡化到極致。模型在這件事上非常糟糕,沒有能力做到。我不斷嘗試提示大語言模型去進一步簡化,但就是不行。你感覺自己完全在強化學習迴路之外,明顯是在硬推,根本不是那種行雲流水的狀態。

所以我認為,人類現在仍然是這方面的主導者,但從根本上說,並沒有什麼原則性的障礙阻止這一點改變,只是實驗室還沒有做到這件事而已。

主持人

我想回到"鋸齒狀智能"這個話題。你寫過一篇很有啓發性的文章,講到"動物與幽靈"的對比——我們構建的不是動物,而是在召喚幽靈。這些幽靈是由數據和獎勵函數塑造的鋸齒狀智能體,而非由內在驅動、樂趣、好奇心或賦權感所驅動——那些是進化出來的東西。這個框架為何重要?它對我們構建、部署、評估乃至信任這些系統的方式,究竟改變了什麼?

Andrej Karpathy

我寫這篇文章是因為我想搞清楚這些東西究竟是什麼。如果你對它們有一個準確的認知模型,你就能更好地使用它們。我不確定這個框架是否有很強的實用性,可能多少有些哲學意味,但我覺得它的核心在於:接受這樣一個事實——這些東西不是動物智能。如果你對它們大喊大叫,它們不會表現得更好或更差,毫無影響。這一切都只是統計模擬迴路,基底是預訓練——統計學,然後在上面疊加強化學習。

也許這只是一種心態——我帶着什麼樣的心態去面對它,什麼可能有效,什麼可能無效,如何調整它。我不能說我已經總結出"這裏有五條明確的結論可以讓你的系統更好",更多是對它保持一種審慎的態度,隨着時間推移慢慢摸索。

主持人

那就是起點。好,你現在深度參與的是那種不只是聊天的智能體——它們有真實的權限,有本地上下文,能代表你採取行動。當我們都開始生活在這樣的世界裏,這個世界會是什麼樣子?

Andrej Karpathy

我想在座很多人都對原生智能體環境感到興奮。所有東西都必須被重寫——目前一切在根本上都還是為人類設計的,需要重新遷移。我現在使用的各種框架和庫,它們的文檔在根本上仍然是寫給人看的。這是我最大的抱怨:為什麼還有人告訴我該怎麼操作?我不想自己動手。我想知道的是:我應該把什麼複製粘貼給我的智能體?每次看到"請訪問這個URL"之類的指引,就覺得很彆扭。

我想,每個人都在思考這樣一個問題:如何把需要完成的工作流分解成對世界的感知和對世界的執行?如何讓一切對智能體友好?基本上就是:首先面向智能體描述它,圍繞對LLM高度可讀的數據結構構建大量自動化。

我希望看到大量面向智能體的基礎設施。以MenuGen為例,那篇博文裏很大一部分的麻煩不是寫代碼本身,而是部署——我要跟各種服務打交道,配置DNS,在各個設定菜單裏來回跳,非常煩人。我希望的是:我給一個LLM一條提示,它就把MenuGen構建出來,而且自動部署好,我不需要碰任何東西,它就在網上跑起來了。這大概是一個好的測試標準,用來判斷我們的基礎設施是否正在變得越來越對智能體友好。

最終,我認為我們正在走向一個世界,每個人和每個組織都有自己的智能體代理。我的智能體和你的智能體互相溝通,搞定會議細節之類的事情。我覺得大致的方向就是這樣,在座的大家對此都感到興奮,這沒錯。

主持人

我非常喜歡"感知器與執行器"這個比喻,這個思路真的很有意思。好,我想以教育這個話題來結束,因為你大概是世界上最擅長把複雜技術概念講清楚的人之一,也非常深思熟慮地思考過如何圍繞這些內容設計教育。當智能變得廉價,在AI的下一個時代,什麼依然值得深入學習?

Andrej Karpathy

最近有一條推文深深觸動了我,我幾乎每隔一天就會想起它。大意是:你可以外包你的思考,但你無法外包你的理解。

主持人

這話說得真好。

Andrej Karpathy

是的,因為我仍然是這個系統的一部分,信息仍然需要進入我的大腦。我越來越感覺自己成了瓶頸——僅僅是"知道"這件事本身就成了瓶頸:我們為什麼要構建這個?有什麼價值?怎麼指揮我的智能體?

所以我仍然認為,最終必須有某種力量來指導思考和處理,而那個力量在根本上仍然受到"理解"的約束。這也是我為什麼對LLM知識庫感到興奮——因為它是一種幫我消化信息的方式。每當我看到對同一份信息的不同視角和切入方式,我都覺得自己獲得了洞見。本質上這是一種針對固定數據的合成數據生成。我真的很享受這個過程:讀一篇文章,它進入我的wiki,然後我去問各種問題,探索不同角度。

這些工具,在某種意義上是增強理解的工具,而理解仍然是一種瓶頸——正是因為沒有理解,你就無法做一個好的"導演"。大語言模型本身當然不擅長理解,這仍然是你獨有的核心能力。所以我認為,增強理解的工具,是極其有趣和令人興奮的方向。

主持人

期待幾年後再次相聚,到時候看看我們是否已經被徹底自動化出局,連理解本身也被接管了。非常感謝你的到來,Andre,真的很感激。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10