
Anthropic每次傳出新品發布,都會被媒體稱為「王炸」,但這次王炸真的來了。外媒曝光了Anthropic正處於測試階段的最強AI模型。
Anthropic的內容管理系統配置出了問題,近3000份未發布的內部文檔,被放在了公開可訪問的數據緩存裏。

相當於敞着大門讓別人看內部機密。
劍橋大學網絡安全研究員亞歷山大·保韋爾斯(Alexandre Pauwels)和LayerX Security的高級研究員羅伊·帕斯(Roy Paz)在搜索公開數據時發現了這些文件。
這些文件裏有什麼?文章草稿、未使用的圖片素材、內部活動安排,甚至還有一份標題裏帶「parental leave」的員工文檔。
但最引人注目的,是一份詳細介紹新模型的草稿。
文件顯示,Capybara和Mythos指向同一個底層模型。
前者是產品層級的命名,跟Opus、Sonnet一樣,後者是模型的代號。就像你可以把一款發動機裝進不同型號的車裏,Mythos是那台發動機,Capybara是那個新車系。
說句題外話,其實千問的卡通形象也是Capybara,你說這不巧了嘛!

言歸正傳,草稿裏面有這麼一句話,「與我們之前最好的模型Claude Opus 4.6相比,Capybara在軟件編程、學術推理和網絡安全測試等方面的得分顯著提高。」
Anthropic發言人證實,新模型在「推理、編碼和網絡安全」方面有「有意義的進步」,代表了「階躍式變化」,並且該模型已經交付給了極少數早期客戶,以進行測試。
但真正讓Anthropic緊張的不是性能提升,而是網絡安全能力的飛躍。
草稿中寫道,這款模型「在網絡能力方面目前遠遠領先於任何其他AI模型」,並且「預示着即將到來的一波模型浪潮,這些模型利用漏洞的能力將遠遠超過防禦者的努力」。
換句話說,Anthropic擔心黑客會拿這個模型發動大規模網絡攻擊。
今年2月,OpenAI發布GPT-5.3-Codex時,首次將一款模型歸類為「高網絡安全能力」,它被OpenAI拿去訓練識別軟件漏洞。Opus 4.6也展現出類似的能力,可以發現代碼庫中的未知漏洞。
兩家公司都清楚,這其實是一把雙刃劍。
Capybara可以是守護天使,也可以是充滿惡意的病毒。
所以Anthropic為Capybara設計了一套謹慎的發布策略。草稿寫道:「在準備發布Claude Capybara時,我們希望格外謹慎。因為我們清楚它帶來的風險,肯定比測試中能遇到的情況更為嚴重。」
Anthropic的具體做法是優先向網絡安全防禦組織提供早期訪問權限,讓他們有時間加固代碼庫,應對即將到來的AI攻擊浪潮。
文件還提到,這個模型運行成本很高,短期內不會面向普通用戶開放。
隨後Anthropic迅速關閉了公開訪問權限。發言人將此歸咎於「內容管理系統配置中的人為錯誤」,並強調這些是「考慮發布的早期草稿」。
但泄露已經發生。Mythos和Capybara成了公開的祕密,Anthropic的發言人也大大方方地承認了Mythos和Capybara的存在。
01
Mythos可能是這個樣子的
那麼Mythos具體會是什麼樣呢?
先說結論:如果Mythos真有「階躍式變化」,我猜它不只是一個更大的base model,而是一套「模型+編排+驗證 +風險控制」的複合系統。
也就是說,真正跳變的可能不是參數量,而是「做長任務時不散架」。
我的理由很簡單,技術會變,但是Anthropic自己的大方向不會變。
Anthropic已經發布了很多關於公司技術路線的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分類器:更高效地防範通用越獄攻擊),以及《Mitigating the risk of prompt injections in browser use》(降低瀏覽器使用中提示注入的風險)等等。

這東西就跟概念車一樣。
先說說安全方面吧,很多人以為殺毒軟件還是靠「病毒庫」——就像警察拿着通緝犯照片挨個比對。但實際上,現代殺毒軟件和EDR(端點檢測與響應)系統早就不是這麼幹了。
它們會看文件結構、監控進程行為、分析API調用模式、追蹤橫向移動軌跡,甚至用機器學習判斷「這個行為像不像攻擊」。
換句話說,現代安全系統已經不只是在找「已知的壞人」,而是在識別「可疑的行為模式」。
Mythos可能把這個邏輯又往前推了一步。它能理解攻擊的語義。
通過理解一段代碼、一串工具調用、一段對話,判斷是不是在構造一條真實可執行的攻擊鏈。
比如它能分辨出:這不是普通的壓縮腳本,而是在做規避掃描、自啓動、憑據竊取這一整套動作;這不是正常的滲透測試問答,而是在拼接exploit、持久化、橫移、出網這幾個步驟。
Mythos很可能具備「漏洞泛化發現」能力。
Anthropic 在今年2月的博客中提到,Opus 4.6找零日漏洞的方式不像傳統fuzzing那樣亂撞,而是通過理解代碼語義、歷史修復模式和相似bug特徵,去找「還沒被修掉的同類漏洞」。
看到一個漏洞後,它就能立刻聯想到「其他地方是不是也存在類似的漏洞」。
Mythos在推理方面的提升,可能也不單單是說benchmark分數又高了幾分。
比如它可能在思考過程中更少出現中途漂移,更少為了迎合用戶而過度自信,更會顯式區分「已知、推斷、未知」,更會在不確定時保守行動等等。
這和安全是同一類底層能力。因為好的模型不只是更會生成答案,而是更會管理自己的不確定性。
Claude的一大重點就是編程。所以我覺得在編程能力上,Mythos可能不只是「把代碼寫地更好」,而是從「會寫代碼」變成「會經營代碼庫」。
Mythos可能會把模塊邊界、依賴關係、歷史patch風格、測試習慣放在一起進行建模。
它會先拆改動圖、再分批落patch,而不是想到哪改到哪;寫完代碼後會主動補測試、跑靜態檢查,根據失敗日誌回滾到更穩的方案。
這種能力對真實工程項目的價值,遠超在測試集上多做對幾道題。
當然最終要落到的地方,肯定是在線束(harness)上,Mythos很可能實現了從「單次回答強」到「整條執行鏈穩」的跨越。
它會把大任務拆成可驗證的小階段,多個子任務並行執行再匯總結果,在長鏈條裏保留關鍵狀態、丟掉噪聲。某一步報錯時不需要從頭來過,只要找到問題發生地,對其局部進行修復,就可以繼續執行任務。
就像遊戲裏的檢查點,如果你沒有通過某一個BOSS,你不需要從頭開始打整個章節,你會被傳送到上一個檢查點。
這就像工業控制裏的「線束管理」——不是某一根線更粗,而是整個連接、隔離、容錯、標記、迴路設計更合理。
長上下文能力的提升可能也不只是「窗口更大」,而是「上下文利用率更高」。
現在的大模型,一說上下文窗口,每個都說自己能裝下幾十萬字,但是一問它全文重點或者文檔關係,立刻就啞巴了。
Mythos如果真有進步,可能體現在更強的重點檢測、更好的層級摘要、更準的跨文檔對齊,以及更有效的持續記憶寫回機制。
在工具使用上,Mythos可能從「會調工具」升級到「會設計實驗」。
Anthropic已經在推computer use、terminal、browser這套能力,但真正的跨越不是UI自動化更強,而是知道什麼時候該讀代碼、什麼時候該跑測試、什麼時候該查文檔。
如何設計最小驗證閉環、避免無效探索、控制成本。
通俗說,就是從「會操作電腦」升級到「會像工程師那樣做排障實驗」,甚至於是說「碰到問題時,會原地掏出一個機床自己製造一個特化對口的工具來處理問題」。
02
還有呢?
反正都猜這麼多了,不妨咱們就再往深了猜猜,我覺得Mythos的提升很可能來自幾種訓練和推理技巧的疊加。
第一是更重的測試時計算,也就是模型會根據任務難度動態分配更多「思考預算」,在關鍵步驟上做更長、更深的推理,而不是一口氣線性吐完答案。
就像考試,普通的AI都是閉卷快答選手,不管是1分的選擇題,還是20分的壓軸大題,都是掃一眼就動筆,寫一步不回頭,勻速寫完拉倒,哪怕題很難,也是順嘴瞎編湊數。
Mythos是學霸,拿到題先分難度,簡單題秒答不浪費時間;遇到複雜大題、關鍵步驟,就多打草稿、多琢磨幾遍,算對了再往下寫,卡殼了就停下來多想一層,絕不會張嘴就來。
第二是更偏向agent軌跡的強化學習,訓練目標不再只是「最後一句話答對了沒有」,而是「整條任務鏈有沒有成功完成」,包括怎麼拆計劃、何時調用工具、何時停下來驗證、出錯後如何回退。
原來的訓練方式是只看「項目最後有沒有交差」,哪怕實習生中間瞎搞、找別人代做、步驟全錯,最後蒙對了結果,就發獎金。
要是中間全對,最後一步手抖錯了,直接扣錢,完全不管過程。
Mythos是全程盯流程,不僅看最後項目成沒成,還要看你會不會把大項目拆成一步一步的小計劃,什麼時候該查資料、用工具,什麼時候該停下來覈對前面的內容,做錯了會不會回頭修正。
第三是更強的verifier,也就是某種內置的審稿人或質檢員,在代碼場景裏檢查patch是否真的成立,在安全場景裏檢查輸出是否顯著增加攻擊可執行性。
這個你就當成是公衆號發文章。普通AI是作者寫完了直接發,不管有沒有錯別字、事實錯誤、合規風險,發出去出問題再說。
Mythos就和字母AI一樣,要有提綱、要有多道審核、還要去求證等等。這篇文章除外。
第四是更細粒度的風險監控,不只看最終文本,而是看模型內部表徵和中間軌跡,判斷它是不是正在形成一條危險的攻擊鏈。
這也是為什麼我一直拿現代殺毒軟件和EDR來類比。過去的殺毒軟件更像「對照病毒庫」,今天的安全系統更像「識別可疑行為模式」。
如果把這個邏輯搬到大模型裏,Mythos的安全能力就可能不是靠硬編碼關鍵詞,而是靠對任務語義、工具調用順序、代碼行為和中間狀態的綜合判斷。
它識別的不是「某個壞答案」,而是「這個請求會造成怎樣的後果」。一旦這種能力成熟,安全就不再只是一個外掛過濾器,而會變成模型推理過程本身的一部分。
如果把這些能力串起來看,Mythos可能會是一個將語義泛化、長任務穩定性、工具編排、風險控制這幾件事給融合起來的新產品。
這也解釋了為什麼Anthropic對Mythos如此謹慎。
一個能理解攻擊語義、能泛化發現漏洞、能編排長鏈條任務、能自主使用工具的AI,這已經是敲響AGI的防盜門了。
但這裏有個更深層的問題:當AI的攻擊能力開始系統性地超過防禦能力,整個網絡安全的平衡會不會被打破?
如果未來幾個月Anthropic真的正式發布Mythos或者Capybara,那麼最應該盯緊的是它在computer use、terminal、browser這類長任務環境裏的穩定性。
因為這類場景最能暴露一個模型到底只是「單輪迴答強」,還是已經具備「持續執行」的系統能力。真正的階躍式變化,最後都會反映在這些難以僞裝美化的指標上。
從這個角度看,Mythos泄密事件的真正意義,是揭示了AI發展的下一個臨界點。
而這個臨界點,可能比我們想象的來得更快。