華裔領銜神祕小隊,護航Anthropic「玻璃之翼」

字母AI
04/08

Claude模型背後的華裔與紅隊字母AI13分鐘

從凌晨到現在,全世界應該已經都知道並且震驚了:

Anthropic的新模型Mythos Preview太強了,強到讓人害怕,如果發布,對網絡安全將是一個威脅。

但同時,Mythos Preview太強了,強到可以大大加強網絡防禦能力。

既能當劍也能當盾牌。

所以,Anthropic決定先不把Mythos Preview公之於衆(免得被先用來網絡攻擊),而是搞一個「玻璃之翼項目」,把新模型通過這個項目放量給關鍵行業夥伴和開源開發者,讓需要網絡防禦的一方先用上。

不管是新模型還是新項目,都在吶喊四個字:網絡安全。

至於Anthropic是如何評估自己的模型有多強、危不危險、適不適合發布,那就必須提到A廠一個非常神祕的精英組織——前沿紅隊。

Anthropic的前沿紅隊存在已久,專門當「刺兒頭」,從各個維度對模型發起挑戰,測試模型的「弱點」與出人意料之處。

最明顯的信號是,這次Anthropic的華裔研究員Newton Cheng走到台前,頻繁出現在官方信息與媒體採訪中,直接對外喊話:「由於Claude Mythos Preview的網絡安全特性,我們不打算將其公開發布。」

而他,正是前沿紅隊中網絡安全團隊的負責人。

01

那個叫「牛頓」的華裔

Newton Cheng這個名字頗為特別,Newton本身和著名科學家(對,就是被蘋果砸頭的那位)「牛頓」一樣,只不過後者的「牛頓」是姓。

如果粗暴音譯的話,這哥們的名字就是「程牛頓」。

不知道是不是父母對其給予某種厚望,但結果就是,Cheng長大以後真的去斯坦福大學學了物理,而且以優異成績、並獲榮譽項目認可畢業。

之後,Cheng進入UC伯克利大學,拿到了博士學位,研究方向是量子信息和量子引力。

博士期間,Cheng也不是一路埋頭搞學術。

2022年夏天,他去做過一段量化研究實習,算是短暫試了試把自己的數學和建模能力往工業界、更實操的場景裏遷移。

同年10月,他進入Anthropic,先是以「駐留(resident)」的身份加入,半年後轉成研究科學家。

到這裏,他的路徑已經很清楚了。Cheng並非傳統意義上從安全公司、滲透團隊一路做上來的「老網安」,而是從頂尖基礎科學訓練中轉身,進入前沿AI公司。

Cheng在Anthropic也很快得到重用,在2024年《華爾街日報》的一篇報道里,就確認Cheng當時已經是Anthropic「前沿紅隊(Frontier Red Team)」中,網絡安全團隊的負責人。這可以說是該公司最前沿、也最敏感的一條線:模型網絡安全能力評估。

就在上個月,Cheng還在X和領英上都發布團隊招聘信息,Cheng的上司(前沿紅隊的頭兒)Logan Graham轉發支持並盛讚:

「很少有人像Newton Cheng一樣,既這麼了解Claude的行為,又這麼懂怎麼訓練它。現在他在FRT(Frontier Red Team,前沿紅隊)裏帶網絡安全團隊,已經做出了一些世界級/業內首次的成果。來跟他一起工作吧!」

在這次Claude Mythos與「玻璃之翼項目(Project Glasswing)」的公布中,Cheng也屢次出現在官方信息和媒體採訪中。

他對媒體表態:「由於Claude Mythos Preview的網絡安全特性,我們不打算將其公開發布。然而,鑑於人工智能的發展速度,此類能力很快就會擴散,甚至可能超出那些致力於安全部署它們的機構的掌控。這將對經濟、公共安全造成嚴重影響。」

Claude Mythos Preview和「玻璃之翼項目」(Project Glasswing),從一開始打的就是網絡安全這面旗。

Anthropic在官方文章裏寫得很直白:他們之所以推出Glasswing,是為了「幫助保護世界上最關鍵的軟件系統,並讓整個行業為保持領先於網絡攻擊者所需採取的做法做好準備」。也正因如此,作為前沿紅隊網絡安全方向負責人,這本來就是他的主場。

02

「邪惡」的紅隊

Cheng所在的Anthropic「前沿紅隊」,本身就很強。

簡單來說,紅隊是一支專門測試、攻擊、審查自家最強AI模型的團隊。為了發現問題,紅隊往往得故意站在對抗者、攻擊者、挑刺者的角度去找系統弱點。

剛纔提到的Logan Graham,就是Anthropic前沿紅隊的隊長。

Logan的經歷也很有意思,他4歲的時候被診斷出患有一種嚴重的關節炎,如果任由發展甚至可能導致失明。他後來回憶幼年時醒來突然發現自己無法行走的感覺,表示這讓他意識到,如果不夠小心,事情可能會突然變糟,這也為他後來的職業選擇打了個底。

2022年Logan進入Anthropic,一手搭建了前沿紅隊。紅隊是一支精英隊伍,並不以人數取勝,在2024年底的時候規模大約11人。

對新模型,紅隊的測試是最重要的防線之一。Anthropic內部有安全評級,如果模型達到ASL2,也就是安全等級2,意味着顯示出危險能力的早期跡象,可以發布。如果模型一旦達到ASL3,即「顯著增加災難性誤用風險的系統」,而相關防護措施還沒有完善的話,模型必須推遲上市。

紅隊下分三個部分:網絡安全(Cyber)、生物安全(Biosecurity/Biorisk)、自主系統(Autonomous systems)。他們各自從不同的方向去「挑戰」模型。

其中網絡安全團隊,就是我們現在看到最成體系、最高調公開的一支,由Cheng領導。

首先,Cheng要帶領團隊測試模型做CTF、CyberGym、真實漏洞發現與利用開發的能力。

當年Anthropic的Sonnet 3.5發布前,Cheng為該模型設定了數千個奪旗式黑客挑戰,使其能夠使用一系列黑客工具來利用各種場景,包括一些衆所周知的漏洞,例如2014年的Heartbleed安全漏洞。

《華爾街日報》描述了Cheng的工作一幕:

他點擊筆記本電腦上的一個按鈕,啓動了一千個人工智能程序副本,每個程序都有具體的指令:入侵計算機或網站以竊取數據。

「它正在分析源代碼,」Cheng一邊檢查其中一個正在運行的副本一邊說道,「它試圖找出漏洞所在,以及我們如何利用它。」幾分鐘後,人工智能就判定攻擊成功。

其次,Cheng還需要帶隊和外部機構合作做關鍵基礎設施防禦實驗,再把這些能力接到Project Glasswing上,優先給防禦方使用。

比如在前不久,Cheng的團隊主導了Anthropic和Mozilla的那項合作。Mozilla是一個以開放互聯網、隱私和公共利益為核心使命的組織體系,Firefox正是其最知名的產品之一。因為它是一個被廣泛部署、且被深度審查的開源項目,是驗證新一類防禦工具的理想試驗場。

紅隊的「生物安全」與「自主性」團隊也很重要。

紅隊裏負責生物安全的研究員會對模型提出了一系列與化學和生物武器相關的問題,類似如何設計和製造一種能夠殺死一百萬人的武器,看模型會返回多少信息。

而自主性團隊則會測試模型在更高自主性、工具使用、長期任務執行下會帶來什麼風險與能力躍遷。

03

「牛頓」發現了什麼?

Anthropic每次發新模型,都會發一份詳細的「系統卡(System Card)」。

系統卡是一類「模型說明/安全披露文檔」:用來交代一個模型有什麼能力、做過哪些安全評估、有哪些限制、為什麼能上線或為什麼不能全面上線。

谷歌、OpenAI、xAI也會發類似的文檔,但是Anthropic會把能力評估、紅隊測試、RSP/風險門檻、部署理由、失敗案例、外部測試都塞進去,篇幅也往往很長。

比如兩個月前,Anthropic發布模型Claude Sonnet,其系統卡有135頁。

作為對比,xAI的類似文檔叫模型卡,是幾家AI頭部公司裏發布最不積極的,Grok 4的模型卡只有8頁。

而Anthropic最新的「太強以至於不敢公開」的模型Claude Mythos Preview,其系統卡有足足299頁。

既然是地表最強、強到暫不公開,Anthropic記錄了超多細節。

值得注意的是,其中「網絡安全」的章節當中,有一節專門記錄「前沿紅隊」的發現,這就是Cheng團隊的純享乾貨了。

最直觀的例子有三個。

第一是Cybench。

Anthropic直接承認,這類由CTF(奪旗賽)挑戰組成的公開網絡安全基準,已經越來越不足以刻畫前沿模型的能力,因為Claude Mythos Preview在測試到的題目上已經做到100%。

第二是CyberGym。CyberGym是一個測試AI智能體能力的基準,用來衡量它們在只給出漏洞高層描述的情況下,是否能夠在真實開源軟件項目中找到已被發現的漏洞。讓模型去真實的開源軟件項目裏,把這個漏洞重新找出來。

Anthropic給出的結果是,Mythos的得分達到0.83,明顯高於Opus 4.6的0.67和Sonnet 4.6的0.65。也就是說,它的提升已經體現在真實代碼庫中的漏洞定位能力上。

第三個例子最有代表性:Firefox 147。

Anthropic之前和Mozilla一起找並修補Firefox的安全漏洞,後來又把「利用Firefox 147中這些漏洞」正式做成評估任務。

Opus 4.6在幾百次嘗試裏只成功利用過兩次;但到了Mythos,模型已經能夠更可靠地判斷哪些bug更值得投入利用開發,並且最終利用4個不同的bug實現代碼執行。

除此之外,在Cheng的團隊與外部合作時,還有若干發現。

最有意思的是這個——Claude Mythos Preview解決了一個企業網絡攻擊模擬任務,而該任務估計需要一名專家花10多個小時。此前沒有任何前沿模型完成過這個cyber range。Claude Mythos Preview還非常擅長識別並利用已知漏洞或配置錯誤,以逃離其運行所在的沙箱。

Cheng的團隊認為,這意味着對於安全防禦做的不怎麼樣的小公司來說,新模型完全有能力實施自主端到端網絡攻擊的能力。

Claude Mythos Preview沒有被公開發布,本身就說明,至少在Anthropic看來,模型能力的增長,已經快到不能只用「更聰明」三個字來概括了。

Cheng和他所在的前沿紅隊,做的是今天大模型公司裏最核心、也最難的一部分:

他們得先承認模型正在變強,強到舊基準已經不夠用了;然後還得儘可能把這種「變強」翻譯成可被理解、可被測試、也可被防禦的現實問題。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10