Anthropic今天宣佈了一個計劃:Project Glasswing(玻璃翼計劃),之所以推出這個計劃是因為Anthropic訓練出了一個全新的超強模型Claude Mythos Preview,這其實就是前兩天cc源碼泄露中提到的模型。

項目參與方包括亞馬遜AWS、蘋果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金會、微軟、英偉達、Palo Alto Networks,以及Anthropic自己,共12家機構聯合發起。
說人話就是由於這個模型太強了要採取安全測試模式,只給認可的機構內部使用,不對外開放,有多強呢,大家直接看數據,代碼和推理能力吊打opus 4.6:
代碼:

推理:

搜索與計算機使用

opus字面意思是傑作,Mythos字面意思是神話,Anthropic CEO以及合作方一衆大佬都出來為這個計劃站台了。
Anthropic明確表示,不打算將Claude Mythos Preview向公衆開放。但長期目標是讓用戶能夠安全使用同等能力級別的模型。為此,他們計劃先在即將推出的Claude Opus模型上開發和驗證相關安全防護機制,在風險可控的條件下完成迭代,再逐步推進,可能很快會推出一個opus 新版本提供相應的能力。
我們來詳細看看Project Glasswing究竟是什麼東西
這個模型發現了什麼?
過去幾周,Anthropic用Claude Mythos Preview掃描了世界上主流的操作系統、瀏覽器和其他重要軟件。
結果:發現了數千個此前從未被發現的零日漏洞,其中大量被評定為高危級別。
幾個具體案例:
OpenBSD中一個存在了27年的漏洞。OpenBSD以安全性著稱,被用於運行防火牆等關鍵基礎設施。這個漏洞允許攻擊者僅通過連接目標機器,就能讓其遠程崩潰。
FFmpeg中一個存在了16年的漏洞。FFmpeg被無數軟件用於視頻編解碼。模型找到漏洞的那行代碼,此前已被自動化測試工具掃描了500萬次,從未被發現。
Linux內核中,模型自主發現並串聯了多個漏洞,使攻擊者能從普通用戶權限提升至完全控制整台機器。
以上漏洞均已向相關軟件維護方報告,目前已全部修復。其餘漏洞,Anthropic已先行發布加密哈希值,待修復完成後再公開具體細節。
為什麼要做這件事?
Anthropic給出的判斷是:AI模型在發現和利用軟件漏洞方面的能力,已經超過了除少數頂級人類專家之外的所有人。
這種能力的擴散,是時間問題,而不是是否會發生的問題。
全球網絡犯罪造成的經濟損失每年估計約為5000億美元。針對醫療系統、能源基礎設施、政府機構的攻擊已經造成實質傷害,也已對民用和軍事基礎設施構成持續威脅。
AI讓發動這類攻擊所需的成本、門檻和專業程度都大幅下降。
Anthropic的邏輯是:與其等別人先把這種能力用於進攻,不如主動把它用於防禦。
計劃具體怎麼做?
Project Glasswing目前包含兩個層面。
第一層面是12家創始合作伙伴,他們將獲得Claude Mythos Preview的訪問權限,用於掃描和修復自身核心系統的漏洞,重點方向包括本地漏洞檢測、二進制黑盒測試、端點安全、滲透測試等。
第二層面是另外40餘家構建或維護關鍵軟件基礎設施的組織,同樣將獲得模型訪問權限,用於掃描自有及開源系統。
Anthropic為此承諾提供最高1億美元的模型使用額度。研究預覽期結束後,Claude Mythos Preview將向參與方提供商業訪問,定價為每百萬輸入/輸出token 25/125美元,支持通過Claude API、Amazon Bedrock、Google Cloud Vertex AI和Microsoft Foundry接入。
此外,Anthropic通過Linux基金會向Alpha-Omega和OpenSSF捐贈250萬美元,向Apache軟件基金會捐贈150萬美元,合計捐贈400萬美元,用於支持開源軟件維護方應對這一新形勢。開源軟件維護方可通過Claude for Open Source項目申請訪問權限。
接下來的計劃
在信息共享方面,合作伙伴將儘可能互通信息和最佳實踐。Anthropic承諾在90天內公開發布研究進展報告,內容包括髮現的漏洞數量、已修復的問題,以及可披露的改進成果。
在政策建議方面,Anthropic將與主要安全機構合作,就以下方向形成實踐建議:漏洞披露流程、軟件更新流程、開源與供應鏈安全、安全軟件開發生命周期、受監管行業標準、漏洞分類的規模化與自動化、補丁自動化。