一家估值接近萬億美元、正衝刺IPO的AI公司,突然公開呼籲全球暫停AI開發。
6月4日,Anthropic在官方博客發布了一篇題為《當AI構建自身》(When AI Builds Itself)的長文。文章由公司聯合創始人Jack Clark和內部研究機構負責人Marina Favaro聯合署名,首次罕見對外披露了一批此前從未公開的內部運營數據。
這些數據顯示,AI正在以驚人速度加速AI自身的開發進程:截至2026年5月,Anthropic超過80%合併入代碼庫的代碼由Claude撰寫;與2024年相比,工程師每日合併代碼量已增長8倍;在一項內部研究調查中,員工估計使用最新模型Mythos Preview後,自身產出約為不使用任何AI工具時的4倍。
更關鍵的是,Anthropic提出了一個令整個AI行業不安的概念警示:「遞歸自我改進」(recursive self-improvement)——即AI系統無需人類干預、自主設計並改進其繼任者的能力。這一階段尚未到來,但「可能在未來兩年內發生,甚至更早」。
根據這些數據,Anthropic提出一個在AI行業頗為罕見的主張:全球應協調考慮暫停或放緩前沿AI的開發。在業務高速擴張之際,Anthropic卻主動呼籲「踩剎車」——這一反常舉動,正在華爾街和硅谷同時引發爭議。
批評者認為,Anthropic此舉不過是其一貫「監管俘獲」策略的延伸——通過渲染AI風險來給監管部門施壓,從而限制競爭對手,尤其是那些開源模型的發展空間。也有人將Anthropic對自家"Mythos"網絡安全模型的限制性發布解讀為一種營銷手段:一方面炫耀能力,一方面又以「安全」為由拒絕全面開放。支持者則認為,Anthropic對AI風險的警示有其真誠的一面。賓大沃頓商學院教授 Ethan Mollick表示,AI 實驗室往往不是單一主體:它既有萬億美元公司的營銷、律師和資本邏輯,也有追求下一代模型的研究人員,還有真心憂慮未來的「哲學王」式人物。
數據本身已足夠震撼:Anthropic年化營收從2025年底的90億美元,將於2026年6月底飆升至500億美元;公司已祕密提交IPO文件;其最新模型Mythos Preview可連續工作超過16小時,並在首批測試中發現了全球最重要系統中逾一萬個高危軟件漏洞。
在這場「加速」與「剎車」的悖論中,Anthropic的這篇博文或許是迄今為止AI行業最誠實也最矛盾的自白。

《當AI構建自身》(When AI Builds Itself)博文節選金句如下:
1. 我們相信,讓世界擁有放緩或臨時暫停前沿AI開發的選項,將對世界有益——以使社會結構和對齊研究能跟上技術進步的步伐。
2. 訓練運行比導彈發射井更容易隱藏,其投入具有通用性,而且祕密違約的激勵極大,因為當其他人暫停時,繼續推進者可能繼承領先地位。
3. AI遞歸自我改進尚未發生,也並非不可避免。但它到來的時間,可能早於大多數機構所準備的。 那類技術從未存在過,但我(Jack Clark)相信這可能在未來兩年內發生,甚至更早。
4. 如果系統能夠完全構建自己的繼任者,那麼我們保護、監控並塑造其行為的方式就會變得重要得多。
5. 在缺乏協調一致的全球性放緩的情況下,我們面臨的是當前局面:強大的技術正以令人窒息的速度,被各國各類行為者開發,彼此競爭,商業和地緣政治的角力正在淹沒這項技術對物種層面的存在性影響。
6. Claude撰寫的代碼在2025年底還略遜於人類,如今大致持平,我們預期一年內將嚴格優於人類。
7. 大約一年前,我開始大量使用Claude工作流程。那是一段瘋狂的經歷,距離我最後一次親自寫代碼,現在已經大約五個月了。——Anthropic員工
8. 簡言之,「執行」本身——寫代碼、跑實驗、產出結果——如今幾乎不再消耗人類時間,儘管仍然消耗算力。
9. 順利的日子裏,我不禁覺得我做的一切都無關緊要,一切都被自動化了,比我更快更好。但也有一切都崩了、我不明白為什麼的日子,我意識到我已不再清楚自己究竟在做什麼。——Anthropic員工
10. Edison說天才是1%的靈感加99%的汗水。但我們看到汗水正在被日益自動化。
《當AI構建自身》(When AI Builds Itself)全文翻譯如下:
當AI自我構建
我們在遞歸自我改進方面的進展及其影響
在AI發展史的大部分時間裏,人類主導着其發展周期的每一個步驟。但在Anthropic,我們正將越來越多的AI開發工作委託給AI系統本身,這正在加速我們的研發進程。
如果這一趨勢延續足夠長的時間,並獲得足夠的算力,其最終指向是:AI系統將能夠完全自主地設計和開發自己的繼任者。這被稱為遞歸自我改進。我們尚未達到這一階段,遞歸自我改進也並非不可避免。但它到來的時間,可能早於大多數機構所預期的。
Anthropic研究院利用公開基準測試數據,以及Anthropic內部此前未曾公開的數據,證明AI已經在加速AI系統的開發。僅舉一例:如今,Anthropic工程師每季度平均提交的代碼量,是2021年至2025年間的8倍。
本文探討的技術趨勢表明,AI系統的能力將在未來數年內大幅躍升。這些趨勢影響深遠。能夠自我構建的AI,將是技術史上的重大突破——它有望在科學、醫療等領域為世界帶來巨大福祉。但完整的遞歸自我改進,也可能加劇人類失去對AI系統控制權的風險。一旦系統能夠完全自主構建自身的繼任者,我們對其實施安全保障、監控管理以及行為塑造的方式,都將變得遠比現在更加重要。
構建第一代Claude(2021—2023年)
早期,Anthropic的工作與其他科技公司並無二致:員工們在筆記本電腦上編寫代碼和文檔。
聊天機器人(2023—2025年)
人們開始藉助早期聊天機器人輔助完成部分工作,例如生成簡短的代碼片段,再將輸出內容複製到文本編輯器中。
編程智能體(2025—2026年)
隨着智能體能力的增強,它們能夠獨立編寫和修改代碼,有時甚至可以處理整個文件。
自主智能體(當下)
智能體現在可以自行運行代碼,並將數小時的工作委派給其他智能體。
閉合循環(20XX年?)
未來,智能體或將具備足夠的能力,自主構建和訓練模型。若果真如此,Claude的後續版本將能夠由Claude自身持續迭代改進。
來自外部世界的證據
AI模型的進步速度正在加快。模型能夠獨立可靠完成任務的時長,此前大約每七個月翻一番,如今這一周期已縮短至約每四個月翻一番。2024年3月,Claude Opus 3能夠完成人類約需四分鐘完成的軟件任務;一年後,Claude Sonnet 3.7已能處理約需一個半小時的任務;再過一年,Claude Opus 4.6已能勝任需時12小時的任務。¹ 若此趨勢持續,今年之內,需要熟練人員數天才能完成的任務或將進入AI的能力射程;到2027年,AI系統或許能夠勝任需要人類數周才能完成的工作。
同樣的規律也出現在編程和研究基準測試中。基準測試衡量模型在特定領域的表現,當模型成績接近滿分時,該基準即被視為"飽和"。² SWE-bench是一項標準的真實世界軟件工程測試:它向模型提供一個真實的開源代碼庫和一份真實的缺陷報告,要求模型編寫代碼修復問題,並通過項目自身的測試。模型的得分已從個位數的低分,在兩年內發展到使該基準趨於飽和。
CORE-Bench測試模型能否復現已有研究成果,這是模型開展原創研究的前提條件。它向AI模型提供一篇已發表論文的代碼和數據,要求其重新運行所有內容並確認能否復現論文結果。AI系統的復現成功率從2024年的約20%,在十五個月後便使該基準趨於飽和。負責運營長時任務基準測試的METR發現,Claude Mythos Preview能夠持續工作"至少"16小時,已"處於[METR]在不引入新任務的情況下所能評測範圍的上限"。
公開基準測試能夠揭示很多關於這些系統能力的信息,但無法反映AI系統對加速AI開發本身所產生的影響。要了解這一點,我們需要來自Anthropic等AI公司內部的直接證據。
來自Anthropic內部的證據
構建一個前沿模型,大致需要兩類工作:其一是工程工作,包括編寫代碼、搭建基礎設施和監督模型訓練;其二是研究工作,包括決定運行哪些實驗、解讀實驗結果,以及確定下一步嘗試哪些方向。
在工程和研究兩個領域,情況如出一轍。在工程方面,Claude可以接手一個規格不明確的問題並自行找出解決方案;人類提供目標,但無需再提供方法。在研究方面,Claude在執行規格明確的實驗時,已能媲美乃至超越熟練的人類研究員。然而,在需要Claude自主判斷和設定目標時,無論是工程還是研究領域,都仍存在顯著的能力差距。正是這一差距,將今天的AI與未來能夠自主設計繼任者的系統區分開來。
在Anthropic,員工隨着經驗積累,通常會承擔更具開放性和重要性的任務。最初,他們執行別人指定好的任務,例如:"導出按鈕失效了,請修復它。"隨着經驗增長,他們會接到一個目標,然後自行設計解決方案,例如:"調查一下為何網絡在高負載下會變慢。"在最高級別,他們需要自行判斷哪些問題值得解決:"團隊下個季度應該做什麼?"我們可以藉助Anthropic的內部數據,觀察Claude在處理這些不同類型任務方面已走了多遠。
Claude已撰寫了Anthropic相當大比例的代碼。 截至2026年5月,合併到Anthropic代碼庫中的代碼,超過80%由Claude創作。³ 而在2025年2月Claude Code以研究預覽版發布之前,這一比例還處於個位數的低水平。這一轉變同樣體現在每位工程師的產出量上。每位工程師每天合併的代碼行數,在Anthropic最初四年(2021—2024年)保持穩定,隨後在2025年開始上升——彼時Claude已從僅給出建議供工程師複製粘貼,轉變為能夠直接運行代碼。2026年,隨着模型開始在更長時間跨度內自主工作,這一增長斜率再度加陡。這兩個拐點如下圖所示。2026年第二季度,典型工程師每天合併的代碼量是2024年的8倍。⁴ 這是因為大量代碼由Claude編寫,工程師負責指導和審閱,而非自己親手輸入。
柱狀圖:按人員、按季度統計的代碼貢獻量,時間跨度從2021年第二季度至2026年第二季度。圖中標註了八個不同模型的發布日期:Claude 1、Claude 2、Claude 3、Claude 4、Claude Code、Claude Sonnet 4.5、Claude Opus 4.5、Claude Mythos Preview(內部訪問)及Claude Mythos Preview。
需要說明的是:代碼行數是一個不夠完善的衡量指標,它衡量的是數量而非質量。因此,2026年第二季度"每位工程師每天代碼量增至8倍",幾乎可以肯定高估了實際的生產率提升幅度。儘管如此,它確實反映了一種加速態勢。在Anthropic,我們不以代碼行數論英雄;團隊成員之所以產出更多代碼,純粹是因為他們藉助AI系統寫出了更多代碼。
代碼行數的增長,與員工對生產率大幅提升的主觀感受相吻合。在2026年3月一項涵蓋Anthropic各研究團隊130名員工的調查中,受訪者的中位估計是:與完全不使用任何AI模型相比,藉助Mythos Preview,他們在同類項目上的產出約為原來的4倍。⁵ 我們預計,當時實際提升幅度會略低於此。⁶ 儘管如此,我們認為這一總體判斷是可信的,也與我們的其他觀察相符:Anthropic相當大比例的技術員工,正在以比沒有AI輔助時快數倍的速度完成核心工作。
我們還觀察到,Anthropic的員工正在藉助Claude完成一些原本不會發生的工作,例如構建探索性工具、處理長期積壓的代碼清理任務。舉例來說,2026年4月,Claude提交了800多個修復補丁,將某類API錯誤減少了千分之一。監督此項工作的工程師估計,同等工作量若由人類完成,需要四年時間;排查他人的缺陷既緩慢又費力,而且人類很難同時在腦海中保持如此大量陌生的上下文信息。
"大約一年前,我開始大量使用Claude工作流程。那是一段瘋狂的經歷,距離我最後一次親自寫代碼,現在已經大約五個月了。" ——Anthropic員工*
Claude編寫的代碼質量"過關",且持續提升。 "好代碼"意味着兩件事:它能正常運行,並且以其他工程師能夠理解和在其基礎上繼續開發的方式編寫。就第一條標準而言,證據是清晰的:Anthropic員工在Claude執行任務過程中糾正、重新引導或接管任務的頻率,已穩步下降長達一年,在最複雜、最開放性的任務上也不例外。這類任務的特點是沒有明確的規格要求,工程師自己也不確定答案應該是什麼樣的。這一點在Claude在不同難度任務上的成功率變化趨勢中清晰可見(如下圖所示)。Claude寫出的代碼,確實能用。
折線圖:Claude Code會話成功率(按四種任務類型——簡單任務、常規任務、有難度的任務及開放性問題——分別統計),包含六個不同模型:Claude Sonnet 4.5、Claude Opus 4.5、Claude Opus 4.6、Mythos Preview(內部訪問)、Mythos Preview及Claude Opus 4.7。
閱讀說明:會話成功率由Claude評判;若Claude Code智能體明確完成了用戶任務且無需糾正,則該會話被視為成功。工作負載的變化可能導致成功率出現短期波動。
在最具開放性的任務上,Claude的成功率在2026年5月達到76%,六個月內提升了50個百分點。以這一難度等級的任務為例:一次常規升級導致數萬個訓練任務崩潰。一名工程師僅憑几條文字說明和集群訪問權限,就將這一線上事故交給了Claude處理。Claude在運行中的任務間逐一檢索,逐個測試環境設定,最終定位到觸發崩潰的單個晦澀調試標誌,可靠地復現了問題,並確認了修復方案。整個過程約兩小時,完成了通常需要兩到三天才能完成的工作。
就第二條標準——編寫其他工程師能夠理解並在其基礎上繼續開發的代碼——而言,人類與AI之間的差距依然存在,但正在迅速縮小。Anthropic員工內部尚未達成完全共識,但許多人認為:2025年底,Claude編寫的代碼在質量上仍略遜於Anthropic人類工程師編寫的代碼;而如今,兩者已大致持平。我們預計,在未來一年內,Claude編寫的代碼質量將超越人類。
這一變化也改變了Anthropic審查自身代碼的方式。現在,提交到代碼庫的變更,必須先經過一個自動化Claude審查工具的檢查——該工具在代碼合併前會主動發現缺陷、安全漏洞及其他問題。藉助這一工具,我們進行了回溯分析,發現如果對代碼庫的每次變更都進行自動化Claude審查,歷史上約有三分之一曾導致claude.ai線上事故的缺陷,將在進入生產環境之前就被攔截。而編寫這些代碼的工程師,本已是世界上構建此類系統最頂尖的人才。如今,Claude正在捕捉他們所遺漏的錯誤。
"Claude編寫的代碼,在2025年底略遜於Anthropic人類工程師編寫的代碼,目前已大致持平,我們預計在今年內將全面超越。"
Claude擅長圍繞既定目標運行實驗。 每次Anthropic發布新模型,我們都會進行同一項測試:給Claude一段訓練小型AI模型的代碼,要求其在保證通過相同正確性檢驗的前提下,儘可能提升代碼運行速度。目標和成功指標事先固定,Claude的任務是通過重寫代碼、運行代碼、計時,並反覆迭代來尋找加速空間——這是一個實驗研究循環的微縮版本。2025年5月,Claude Opus 4的平均加速比約為起始代碼的3倍;到2026年4月,Claude Mythos Preview已達到約52倍。作為參照,一位熟練的人類研究員需要四到八小時才能達到4倍加速。⁷ 在這個研究工作流程的特定環節——對規格明確的實驗內部步驟進行優化——Claude在不到一年的時間內,已從"極為有用"躍升至"超越人類"。
"當前的格局大致是:'人類提出想法,模型能夠以比以前快一個數量級的速度來實現、測試和評估這些想法。'"
Claude正在逐步提升自主提出實驗方案的能力。 2026年4月,Anthropic發布了Claude端到端運行開放性研究項目的首次演示。Claude驅動的智能體被給定一個AI安全領域的開放性問題——大致是:較弱的模型能否可靠地監督更強的模型?——然後被留下來自行解決。這涉及提出假設、進行測試、與並行運行的智能體共享發現,以及反覆迭代。該任務有明確的性能"下限"和"上限":下限是弱監督者獨立運作的表現,上限是強模型在正確答案訓練下的表現。兩位人類研究員約花一周時間,彌補了該差距的約23%;而這些智能體在合計約800小時的運算時間內,彌補了97%,消耗算力成本約為18,000美元。
這項工作有一些需要說明之處:研究結果未能在生產規模的模型上得到完全復現,且人類仍然負責選定問題和制定評分標準。但在這些約束條件之內,每一個實驗都由智能體自主設計。方向設定,是人類所扮演的唯一實質性角色。
"在一到兩天的時間裏,Claude在幾乎沒有我介入的情況下完成了所有這些工作。我想,如果一位初級同事能在同樣的時間內帶來這樣的成果,我會相當驚訝。未來已至。"
Claude在引導研究會話走向研究發現方面正日益精進。 我們檢視了2026年1月至3月間的真實Claude Code會話,其中Anthropic研究員正與Claude協作處理開放性調研問題,例如查明某次訓練運行為何反覆崩潰,或某模型為何在基準測試中得分不佳。在每一個案例中,我們都找到了一個研究員走了彎路的時刻——他們追求了一個方向,導致會話偏離軌道,直到最終重回正軌。隨後,我們僅向不同的Claude模型展示會話偏離軌道之前的內容,詢問它下一步會怎麼做。再由另一個能夠看到會話最終走向的Claude,判斷AI和人類哪一方建議了更好的下一步行動。⁸
由於我們刻意選取的是人類決策存在改進空間的時刻(n=129),這並非模型與人類判斷力的同等條件對比。這些時刻為我們提供了一組真實、有挑戰性的場景——在這些場景中,正確的下一步並不明顯,而人類的選擇則作為衡量模型表現的有效參照基準。在這一指標上,我們2025年11月最優模型(Opus 4.5)優於人類選擇的比例為51%;到2026年4月(Mythos Preview),這一比例增至64%。研究工作的日常,在很大程度上是一連串"下一步該怎麼做"的決策鏈,這使得上述指標成為衡量模型最終能否獨立主導一項研究調查的相關指標。我們將這一結果視為早期信號,表明AI系統在做出AI研究所依賴的判斷性決策方面正日益精進。
柱狀圖,標題為"模型能否比人類選出更好的下一步?"該圖展示了九個不同模型的表現:Claude 3 Haiku、Claude Sonnet 4、Claude Sonnet 4.5、Claude Haiku 4.5、Claude Opus 4.5、Claude Sonnet 4.6、Claude Opus 4.6、Claude Opus 4.7及Claude Mythos Preview。
閱讀說明:"實際上限"線衡量的是"理想"答案——由一個能夠看到整個會話(包括最終結果)的模型給出。
"就目前而言,人類的比較優勢仍在於把握全局,以及在當前任務的侷限之外進行更宏觀的思考。"
Anthropic未來的工作形態會是什麼樣子?
現有證據表明,在AI開發流程的每個環節,人類的角色都在收窄。一旦人類和AI編寫的代碼質量達到對等,人類將完全停止編寫代碼,轉而只負責審查。但如果他們審查代碼的速度跟不上Claude生成代碼的速度,人類審查就會成為AI開發的瓶頸。同樣,一旦Claude能夠運行實驗,問題就會轉變為"哪些實驗值得運行?"簡而言之:執行層面(即編寫代碼、運行實驗、產出結果)在人力時間上的成本現在幾乎為零,即便在算力成本上依然存在。
目前,人類具有比較優勢的領域,是研究品味與判斷力,包括:判斷哪些問題值得關注、哪些結果值得信任、以及何時某條路徑已走入死衚衕。
"工作(乃至生活)曾運行在一種人與人之間小恩小惠的饋贈經濟之上。'能幫我跑一下這個腳本嗎?'……每一個這樣的請求都創造了一點點人情債,一點點彼此的牽絆。[Claude]更快,不產生人情債,但每一次這樣的交互,都是一次失去人與人之間協作機會的遺憾。"
"在一切運轉順暢的日子裏,我不禁覺得自己做的事情毫無意義——一切都已自動化,比我更好、更快。但也有一些日子,什麼都壞掉了,我不明白為什麼,然後我意識到,我已經不知道自己究竟在做什麼了。"
如果我們的判斷有誤呢?
對上述證據的一個自然反駁是:目前仍掌握在人類手中的工作——選擇研究什麼問題——纔是最重要的。缺乏這種判斷力,Claude只是一個能力出衆的助手,而非一個能夠獨立推動AI進步的系統。
當前的訓練方法和架構是否足以解鎖這種能力,目前尚無定論。但AI的進步很少依靠"靈光乍現"。AI近期歷史上確實出現過幾次這樣的時刻,例如Transformer架構或混合專家模型,但範式轉換級別的思想之間往往相隔數年。在這之間,大多數進步都是漸進式的:我們擴大某項規模,觀察什麼地方出現問題,修復它,再繼續嘗試。這恰恰是Claude如今最擅長的工作流程。愛迪生說,天才是1%的靈感加上99%的汗水。但我們正看到"汗水"的部分越來越多地被自動化取代。一個越來越清晰的事實是:推動前沿進步的大部分工作是可以自動化的;大規模的研究進展在很大程度上取決於工具和資源——它們決定了你運行實驗的速度、同時運行的數量,以及獲得結果的效率。
即便退一步假設Claude永遠無法形成良好的研究品味,我們的證據保守解讀之下,仍意味着複利式的加速。如果人類將大部分時間花在那佔比極小的方向設定工作上,而Claude處理其餘一切,那就意味着每位工程師或研究員所掌舵的工作量遠超從前。我們觀察到的證據表明,Anthropic的員工既在加速前進,也在拓寬覆蓋範圍。在實踐中,這意味着AI已經讓Anthropic的運轉速度遠快於有效AI工具出現之前。
相對大膽的解讀則是:Claude研究判斷力持續改進的早期證據——儘管目前尚顯微弱——表明這項能力同樣在進步之中。"研究品味"或許不過是另一種AI系統曾經不擅長、後來學會了的能力。我們在其他定性技能上見過類似的規律,比如AI系統學會解釋一個笑話為何好笑、展現心智理論,以及解開語言謎題。
可能的未來
接下來會發生什麼,取決於兩件事:這一趨勢是否延續,以及如果它確實延續,我們選擇如何應對。我們可以設想至少三種未來情景:
情景一:趨勢停滯,但今天的AI能力得到廣泛普及
本文中呈現了許多指數增長的軌跡。但這些軌跡實際上可能是S形曲線。我們或許正在接近曲線的拐點,在那裏規模回報開始遞減,曲線趨於平緩直至平坦。將優秀研究員與卓越研究員區分開來的判斷力,或許是一種無法通過擴大訓練投入(如算力和數據)來獲得的能力。若果真如此,突破這一瓶頸將需要一個全新的思路——例如一種能夠取代當前所有前沿模型所採用的Transformer架構的新型架構方案。
另一種可能是,AI進步的關鍵制約因素在於供應鏈,而非模型本身:推進和普及前沿技術所需的能源和算力,可能超出當前的供給能力。芯片製造速度、電網擴容速度,或互聯帶寬,可能纔是真正的瓶頸所在,而非智能本身。我們也無法排除AI生態系統遭受外生衝擊的可能性,例如算力或電力供應的突然萎縮,這兩者中的任何一個都將拖慢進展,並使各實驗室的前瞻性投資成本大幅上升。此外,或許還存在我們尚未預料到的其他發展壁壘。
即便模型能力凍結在今天的水平,我們也預計世界將發生重大變化。"玻璃翼計劃"(Project Glasswing)是一個早期跡象:在項目啓動最初幾周內,Mythos Preview便在全球最重要的系統中發現了超過一萬個高危及嚴重安全漏洞——數量之多,使得網絡防禦的瓶頸已從"發現漏洞"轉移至"快速修復漏洞"。而今天的模型向更廣泛經濟體的擴散,目前仍處於早期階段——在那個未來,一家100人的公司將越來越能完成1000人公司的工作,因為每位員工之下都將統率着一個由智能體構成的金字塔。
我們列出這種情景是為了完整性,但我們認為它不大可能發生。我們能夠測量的每一項能力,包括那些感覺更難量化的能力,如代碼質量和開放性任務的成功率,迄今都遵循着相同的曲線,而我們尚未看到這條曲線出現彎折。在我們考慮的三種未來中,這種情景將給各國政府和社會留下最充裕的適應時間。我們更擔憂接下來的兩種情景——它們的演變速度更快,留給準備的空間也更為有限。
情景二:AI實驗室持續獲得複利式效率提升
在這一情景中,AI開發在很大程度上實現了自動化,但人類繼續設定研究方向並評判結果。使用AI系統的組織將隨着時間推移變得效率大增,因此我們可以預見每位員工將獲得顯著的生產率倍增效應——100人的公司能夠完成相當於1萬人乃至10萬人規模的工作。這將徹底變革知識工作和政府服務,但也可能被用於有害目的,從對整個人口實施威權式監控,到針對每個個體量身定製、以超越任何人類團隊所能匹敵的規模運作的影響力操縱行動。
Anthropic等公司的人員角色將隨之轉變:人們將與AI系統攜手,擴大研究規模、催生新的洞見,並共同構建驗證AI輸出可信度所必需的系統。
我們在本文中呈現的證據表明,我們很可能正在走向這一情景。但加速流程的某一環節,往往只是將瓶頸轉移到別處:整體速度受制於尚未提速的部分。在計算機科學領域,這被稱為阿姆達爾定律,同樣的邏輯也適用於組織管理。Anthropic已經遭遇了阿姆達爾定律的一個典型特徵:隨着我們在組織內推動更多代碼流轉,人工代碼審查已成為新的瓶頸。
我們在工程領域之外也遭遇了這種摩擦。由於Anthropic員工與高能力模型協作,新想法、新舉措、新工具和新模擬方案如雨後春筍般湧現——其數量遠超我們實際推進的能力。組織識別並修復這些瓶頸的速度,或許是一種會隨時間積累的能力,並可能成為任何組織最重要的核心競爭力。
情景三:AI系統自身具備完整的遞歸自我改進能力,並開始構建自己的繼任者
如果能力提升的技術趨勢持續,而AI系統能夠發展出人類變革性創造力所固有的那些能力,那麼AI系統自主設計和改進自身,是完全有可能發生的。
在這個世界裏,AI開發的進步速度將完全取決於AI系統可用的算力(或在算法訓練與推理效率發現上的速度)。人類在AI開發中扮演的角色將大幅弱化,我們的工作重心可能大多轉向對一個由AI系統運營的不斷擴張的"虛擬實驗室"進行監督、驗證和核查。我們預計,具備自動化AI研發能力的系統,其能力將遷移至其他科學領域,並開始革新那些領域。
這種未來中,對齊問題將如何被解決——或無法被解決——是我們最不確定的地方。模型或許會被證明足夠對齊,並具備足夠的研究品味,能夠自主探索和實現我們尚未觸及的新解決方案;它們也可能足夠明智,在條件不成熟時主動停止開發。但另一種可能同樣存在:今天模型中罕見出現的錯誤對齊,在模型構建其繼任者的過程中不斷累積疊加,變得越來越頻繁卻越來越難以理解,直至我們最終失去對它們的控制。而我們或許沒有足夠的時間和能力來構建、整合併驗證那些我們所需的工具,以判斷自己究竟身處哪條軌道之上。
對於這個世界會是什麼樣子,我們沒有良好的直覺,因為我們當前的經濟是由人類和人類建造的工具所驅動的。就其本質而言,一個由快速遞歸自我改進所驅動的世界,可能會在自我改進模型的能力全面超越人類、並向更廣泛經濟體擴散蔓延的過程中,被這一模型所主導。如果人類勞動力失去競爭力,屆時的經濟形態將難以預測。
即便模型開發完全實現自動化並進入遞歸模式,我們也無法預測這對大多數普通人的日常生活意味着什麼。阿姆達爾定律在此同樣適用。遞歸智能可能在某些領域迅速實現《仁愛之機》(Machines of Loving Grace)所描繪的衆多美好前景。我們預計,具身智能(即機器人技術)可能緊隨遞歸智能之後迅速跟進,遵循類似的以遞減成本實現遞增回報的發展路徑。更強大的智能可能幫助我們更快地建造物理世界中的事物,讓救命新藥的臨床試驗更富成效,並開發出全新的協作協調形式。
但僅僅實現遞歸式改進,並不意味着工業生產方式、社會組織形態或市場運作機制會立即發生變化。更強大的智能無法加速獲知一種藥物數十年使用後的效果,無法讓選舉提前於憲法規定的日期舉行,也無法在一個周末內將陌生人變成老朋友。對於大多數人來說,這種未來在體感上依然會被瓶頸所左右,即便上游的實驗室正以算力的速度奔湧向前。在這裏,遞歸智能以越來越快的速度自我構建,與人類、關係和治理構成的現實世界相撞——那個碰撞點會是什麼樣子,是這種未來中另一個我們無法預言的部分。
我們應該怎麼做?
如果能夠有效地放緩這項技術的發展速度,為自身爭取更多時間來應對其深遠影響,我們認為這很可能是一件好事。但如果放緩只是讓最不謹慎的行為者在技術上迎頭趕上,最終結果可能讓所有人都更不安全。在缺乏全球協調機制的情況下,各公司和各國政府將不得不在競爭壓力和地緣政治壓力之下,做出艱難的安全抉擇。
我們認為,賦予世界放緩乃至暫停前沿AI開發的選項,將是有益的——這有助於社會結構和對齊研究跟上技術進步的步伐。Anthropic研究院將與衆多合作方開展研究,並採取實際行動,幫助構建一個可信的減速或暫停機制所需的制度體系。這些體系將使前沿AI開發者能夠覈實全球其他機構是否真正停止或放緩了開發,並確保沒有不良行為者藉助協調減速之名,暗中搶先推進。如果這樣的體系得以建立,我們預計我們將選擇減速或暫停,前提是其他處於或接近前沿的開發者也以可覈實的方式同步這樣做。
一次有意義的減速或暫停,需要多個資源充足、處於或接近前沿的實驗室,跨越多個國家,在相同條件下達成停止協議;同時還需要各方能夠覈實對方確實已停止。由於AI系統的獨特屬性,這一軍備控制難題中的"可檢測性"(低於"可覈查性"的標準)遠比其他技術更具挑戰性。訓練運行遠比導彈發射井更易於隱蔽,其投入是通用性的,而悄然違約的激勵極為強烈——因為在他人停步時繼續前進者,將有機會繼承領先地位。一個可信的暫停機制還必須明確規定:什麼條件觸發暫停、什麼條件解除暫停,以及由誰進行裁定。
這一切在原則上並非不可能——世界曾為其他複雜技術建立過覈查機制(例如《中程核力量條約》),但彼時構建基礎設施和建立互信都花費了數十年時間。而我們沒有那麼多時間。相比之下,一家實驗室的單方面暫停雖然可以立即實現,但收效甚微:它只會改變誰是領跑者,卻無法催生目前所缺失的那種更廣泛的審議過程。
在未來數月,我們將組織對話,邀請政策制定者、研究人員、公民社會和其他AI公司,共同探討本文所提出的若干問題,尤其是圍繞完整遞歸自我改進,以及如何為協調與審議創造更好條件等議題。我們將公布這些對話的成果。共同探討這些問題的窗口已經開啓,AI公司以外的人們理應參與到這場審議之中。
Marina Favaro與Jack Clark聯合撰寫本文,Santi Ruiz提供編輯支持。Shan Carter、Romello Goodman和Nikki Makagiansar依據Brian Calvert與Jun Shern Chan收集的數據製作了可視化圖表。Daniel Freeman、Jim Baker、Max Young、Sarah Pollack、Francesco Mosconi、Holden Karnofsky、Andy Jones、Kevin Troy、Anton Korinek、Meg Tong、Andrew Ho、Dan Altman、Drake Thomas、Jack Shen、Sasha de Marigny及Avital Balwit提供了反饋意見。
註釋
- METR的核心衡量指標反映的是AI系統在一系列任務上達到50%可靠性的時間跨度,但在80%可靠性標準下,趨勢線形態相同。
- 尤其是當基準測試轉向更具開放性的形式和更高難度的任務(如奧林匹克級別的數學題)時,由於題目和答案集中存在錯誤——如表述模糊的問題和無解的題目——基準測試往往在達到100%之前便已飽和。
- Anthropic領導層曾公開估計,包括腳本和實驗性代碼在內,90%甚至更多的代碼由Claude編寫。我們的80%以上是指合併到生產環境中、可歸因於Claude的代碼行佔比。這在兩個維度上是更為保守的衡量方式:一是我們的歸因流程存在一定缺口;二是未歸因於Claude的代碼行中,包含了自動生成代碼及其他並非由人工手寫的產物。
- 代碼產出量的激增,正在給大家共用的基礎設施帶來壓力。GitHub——全球大多數軟件賴以構建的平台——在整個2025年約有十億次代碼提交;而到2026年中,每周的提交量已達2.75億次,按此速度全年提交量約為140億次。該公司首席運營官表示,為了跟上這一步伐,公司正在"拼盡全力"擴容。
- 本次調查方法的更多細節,請參閱Claude Opus 4.7系統卡的第2.3.5節。
- 許多受訪者可能未仔細考量如何在回答中處理各類偏差或問題界定中的細微差別;METR的近期研究也表明,開發者對AI生產力提升幅度的估計往往偏高。
- 加速倍數的大小,在很大程度上取決於起始代碼留有多少改進空間,不應將其解讀為真實世界訓練速度的提升倍數。因此,絕對倍數並非本處關注的核心數字。更具參考價值的是,這一實驗設定所實現的同等條件比較——既可跨模型比較(過去一年從約3倍升至約52倍),也可與同等任務上的熟練人類進行比較(四到八小時達到約4倍)。
- 作為對評判偏差的驗證,我們在另一組127個時刻上進行了相同測試,這些時刻中人類的下一步選擇已經很優秀(相對於原始組中人類決策有改進空間的時刻而言)。結果顯示,在那些時刻,模型的建議僅約20%的情況下被判定為更優。
* 本文中Anthropic員工的引言,均來自內部討論,並已獲當事人許可使用。這些引言反映的是個人於2026年5月的觀點,並非公司官方立場。



