Anthropic最强模型,很可能敲响了AGI的防盗门

字母榜
Mar 27

Anthropic每次传出新品发布,都会被媒体称为“王炸”,但这次王炸真的来了。外媒曝光了Anthropic正处于测试阶段的最强AI模型。

Anthropic的内容管理系统配置出了问题,近3000份未发布的内部文档,被放在了公开可访问的数据缓存里。

相当于敞着大门让别人看内部机密。

剑桥大学网络安全研究员亚历山大·保韦尔斯(Alexandre Pauwels)和LayerX Security的高级研究员罗伊·帕斯(Roy Paz)在搜索公开数据时发现了这些文件。

这些文件里有什么?文章草稿、未使用的图片素材、内部活动安排,甚至还有一份标题里带“parental leave”的员工文档。

但最引人注目的,是一份详细介绍新模型的草稿。

文件显示,Capybara和Mythos指向同一个底层模型。

前者是产品层级的命名,跟Opus、Sonnet一样,后者是模型的代号。就像你可以把一款发动机装进不同型号的车里,Mythos是那台发动机,Capybara是那个新车系。

说句题外话,其实千问的卡通形象也是Capybara,你说这不巧了嘛!

言归正传,草稿里面有这么一句话,“与我们之前最好的模型Claude Opus 4.6相比,Capybara在软件编程、学术推理和网络安全测试等方面的得分显著提高。”

Anthropic发言人证实,新模型在“推理、编码和网络安全”方面有“有意义的进步”,代表了“阶跃式变化”,并且该模型已经交付给了极少数早期客户,以进行测试。

但真正让Anthropic紧张的不是性能提升,而是网络安全能力的飞跃。

草稿中写道,这款模型“在网络能力方面目前远远领先于任何其他AI模型”,并且“预示着即将到来的一波模型浪潮,这些模型利用漏洞的能力将远远超过防御者的努力”。

换句话说,Anthropic担心黑客会拿这个模型发动大规模网络攻击。

今年2月,OpenAI发布GPT-5.3-Codex时,首次将一款模型归类为“高网络安全能力”,它被OpenAI拿去训练识别软件漏洞。Opus 4.6也展现出类似的能力,可以发现代码库中的未知漏洞。

两家公司都清楚,这其实是一把双刃剑。

Capybara可以是守护天使,也可以是充满恶意的病毒。

所以Anthropic为Capybara设计了一套谨慎的发布策略。草稿写道:“在准备发布Claude Capybara时,我们希望格外谨慎。因为我们清楚它带来的风险,肯定比测试中能遇到的情况更为严重。”

Anthropic的具体做法是优先向网络安全防御组织提供早期访问权限,让他们有时间加固代码库,应对即将到来的AI攻击浪潮。

文件还提到,这个模型运行成本很高,短期内不会面向普通用户开放。

随后Anthropic迅速关闭了公开访问权限。发言人将此归咎于“内容管理系统配置中的人为错误”,并强调这些是“考虑发布的早期草稿”。

但泄露已经发生。Mythos和Capybara成了公开的秘密,Anthropic的发言人也大大方方地承认了Mythos和Capybara的存在。

01

Mythos可能是这个样子的

那么Mythos具体会是什么样呢?

先说结论:如果Mythos真有“阶跃式变化”,我猜它不只是一个更大的base model,而是一套“模型+编排+验证 +风险控制”的复合系统。

也就是说,真正跳变的可能不是参数量,而是“做长任务时不散架”。

我的理由很简单,技术会变,但是Anthropic自己的大方向不会变。

Anthropic已经发布了很多关于公司技术路线的博客,比如《Next-generation Constitutional Classifiers: More efficient protection against universal jailbreaks》(下一代分类器:更高效地防范通用越狱攻击),以及《Mitigating the risk of prompt injections in browser use》(降低浏览器使用中提示注入的风险)等等。

这东西就跟概念车一样。

先说说安全方面吧,很多人以为杀毒软件还是靠“病毒库”——就像警察拿着通缉犯照片挨个比对。但实际上,现代杀毒软件和EDR(端点检测与响应)系统早就不是这么干了。

它们会看文件结构、监控进程行为、分析API调用模式、追踪横向移动轨迹,甚至用机器学习判断“这个行为像不像攻击”。

换句话说,现代安全系统已经不只是在找“已知的坏人”,而是在识别“可疑的行为模式”。

Mythos可能把这个逻辑又往前推了一步。它能理解攻击的语义。

通过理解一段代码、一串工具调用、一段对话,判断是不是在构造一条真实可执行的攻击链。

比如它能分辨出:这不是普通的压缩脚本,而是在做规避扫描、自启动、凭据窃取这一整套动作;这不是正常的渗透测试问答,而是在拼接exploit、持久化、横移、出网这几个步骤。

Mythos很可能具备“漏洞泛化发现”能力。

Anthropic 在今年2月的博客中提到,Opus 4.6找零日漏洞的方式不像传统fuzzing那样乱撞,而是通过理解代码语义、历史修复模式和相似bug特征,去找“还没被修掉的同类漏洞”。

看到一个漏洞后,它就能立刻联想到“其他地方是不是也存在类似的漏洞”。

Mythos在推理方面的提升,可能也不单单是说benchmark分数又高了几分。

比如它可能在思考过程中更少出现中途漂移,更少为了迎合用户而过度自信,更会显式区分“已知、推断、未知”,更会在不确定时保守行动等等。

这和安全是同一类底层能力。因为好的模型不只是更会生成答案,而是更会管理自己的不确定性。

Claude的一大重点就是编程。所以我觉得在编程能力上,Mythos可能不只是“把代码写地更好”,而是从“会写代码”变成“会经营代码库”。

Mythos可能会把模块边界、依赖关系、历史patch风格、测试习惯放在一起进行建模。

它会先拆改动图、再分批落patch,而不是想到哪改到哪;写完代码后会主动补测试、跑静态检查,根据失败日志回滚到更稳的方案。

这种能力对真实工程项目的价值,远超在测试集上多做对几道题。

当然最终要落到的地方,肯定是在线束(harness)上,Mythos很可能实现了从“单次回答强”到“整条执行链稳”的跨越。

它会把大任务拆成可验证的小阶段,多个子任务并行执行再汇总结果,在长链条里保留关键状态、丢掉噪声。某一步报错时不需要从头来过,只要找到问题发生地,对其局部进行修复,就可以继续执行任务。

就像游戏里的检查点,如果你没有通过某一个BOSS,你不需要从头开始打整个章节,你会被传送到上一个检查点。

这就像工业控制里的“线束管理”——不是某一根线更粗,而是整个连接、隔离、容错、标记、回路设计更合理。

长上下文能力的提升可能也不只是“窗口更大”,而是“上下文利用率更高”。

现在的大模型,一说上下文窗口,每个都说自己能装下几十万字,但是一问它全文重点或者文档关系,立刻就哑巴了。

Mythos如果真有进步,可能体现在更强的重点检测、更好的层级摘要、更准的跨文档对齐,以及更有效的持续记忆写回机制。

在工具使用上,Mythos可能从“会调工具”升级到“会设计实验”。

Anthropic已经在推computer use、terminal、browser这套能力,但真正的跨越不是UI自动化更强,而是知道什么时候该读代码、什么时候该跑测试、什么时候该查文档。

如何设计最小验证闭环、避免无效探索、控制成本。

通俗说,就是从“会操作电脑”升级到“会像工程师那样做排障实验”,甚至于是说“碰到问题时,会原地掏出一个机床自己制造一个特化对口的工具来处理问题”。

02

还有呢?

反正都猜这么多了,不妨咱们就再往深了猜猜,我觉得Mythos的提升很可能来自几种训练和推理技巧的叠加。

第一是更重的测试时计算,也就是模型会根据任务难度动态分配更多“思考预算”,在关键步骤上做更长、更深的推理,而不是一口气线性吐完答案。

就像考试,普通的AI都是闭卷快答选手,不管是1分的选择题,还是20分的压轴大题,都是扫一眼就动笔,写一步不回头,匀速写完拉倒,哪怕题很难,也是顺嘴瞎编凑数。

Mythos是学霸,拿到题先分难度,简单题秒答不浪费时间;遇到复杂大题、关键步骤,就多打草稿、多琢磨几遍,算对了再往下写,卡壳了就停下来多想一层,绝不会张嘴就来。

第二是更偏向agent轨迹的强化学习,训练目标不再只是“最后一句话答对了没有”,而是“整条任务链有没有成功完成”,包括怎么拆计划、何时调用工具、何时停下来验证、出错后如何回退。

原来的训练方式是只看“项目最后有没有交差”,哪怕实习生中间瞎搞、找别人代做、步骤全错,最后蒙对了结果,就发奖金。

要是中间全对,最后一步手抖错了,直接扣钱,完全不管过程。

Mythos是全程盯流程,不仅看最后项目成没成,还要看你会不会把大项目拆成一步一步的小计划,什么时候该查资料、用工具,什么时候该停下来核对前面的内容,做错了会不会回头修正。

第三是更强的verifier,也就是某种内置的审稿人或质检员,在代码场景里检查patch是否真的成立,在安全场景里检查输出是否显著增加攻击可执行性。

这个你就当成是公众号发文章。普通AI是作者写完了直接发,不管有没有错别字、事实错误、合规风险,发出去出问题再说。

Mythos就和字母AI一样,要有提纲、要有多道审核、还要去求证等等。这篇文章除外。

第四是更细粒度的风险监控,不只看最终文本,而是看模型内部表征和中间轨迹,判断它是不是正在形成一条危险的攻击链。

这也是为什么我一直拿现代杀毒软件和EDR来类比。过去的杀毒软件更像“对照病毒库”,今天的安全系统更像“识别可疑行为模式”。

如果把这个逻辑搬到大模型里,Mythos的安全能力就可能不是靠硬编码关键词,而是靠对任务语义、工具调用顺序、代码行为和中间状态的综合判断。

它识别的不是“某个坏答案”,而是“这个请求会造成怎样的后果”。一旦这种能力成熟,安全就不再只是一个外挂过滤器,而会变成模型推理过程本身的一部分。

如果把这些能力串起来看,Mythos可能会是一个将语义泛化、长任务稳定性、工具编排、风险控制这几件事给融合起来的新产品。

这也解释了为什么Anthropic对Mythos如此谨慎。

一个能理解攻击语义、能泛化发现漏洞、能编排长链条任务、能自主使用工具的AI,这已经是敲响AGI的防盗门了。

但这里有个更深层的问题:当AI的攻击能力开始系统性地超过防御能力,整个网络安全的平衡会不会被打破?

如果未来几个月Anthropic真的正式发布Mythos或者Capybara,那么最应该盯紧的是它在computer use、terminal、browser这类长任务环境里的稳定性。

因为这类场景最能暴露一个模型到底只是“单轮回答强”,还是已经具备“持续执行”的系统能力。真正的阶跃式变化,最后都会反映在这些难以伪装美化的指标上。

从这个角度看,Mythos泄密事件的真正意义,是揭示了AI发展的下一个临界点。

而这个临界点,可能比我们想象的来得更快。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10