春节模型大战,硅谷率先打响:GPT 和 Claude 大更新撞车了

爱范儿
Feb 06

就在刚刚,硅谷 AI 圈上演了一出“火星撞地球”。

OpenAI 和 Anthropic 仿佛商量好似的,同时甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果说昨晚之前,我们还在讨论怎么写好 Prompt 辅助工作;那么今天过后,我们可能需要学会如何作为老板去管理 AI 员工。

AI 造 AI,顺便接管你的电脑

前一天晚上,Sam Altman 还在因为对手 Anthropic 的超级碗广告而破防红温,今天就直接扔出王炸:

GPT-5.3-Codex。

技术文档里藏着一句极具分量的话:“这是我们第一个在创造自己的过程中,发挥了关键作用的模型。”

说人话就是:AI 已经学会了自己写代码、自己找 Bug,甚至开始自己训练下一代的 AI 了。

更关键的是,这种自我进化能力,能够直接用跑分数据体现。

在模拟人类操作电脑的 OSWorld-Verified 基准测试上,前代模型只有 38.2% 的准确率,完全不及格。

但这次,GPT-5.3-Codex 直接跳涨到了 64.7%。

要知道,人类的平均水平也就 72%。

这意味着,AI 距离像你一样熟练地甩鼠标、切屏、操作软件,已经很近很近了。

而在 Terminal-Bench 2.0(命令行操作基准测试)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)远远甩在身后。

在 SWE-Bench Pro 基准测试(覆盖四种编程语言,不仅抗污染,还全是真实世界的硬核工程难题)当中,GPT-5.3-Codex 也稳定实现 SOTA 水准, token 用量远比以往模型更低。

5.3-Codex 独立构建的能力也毋庸置疑:在 OpenAI 的测试中,用它在几天时间里从零构建了一款包含多张地图的赛车游戏 v2,顺手还搞定了一款管理氧气系统的深海潜水游戏。

5.3-Codex 对模糊意图的理解能力,同样令人深刻。

在构建网页时,它自动把年度计划换算成了打折后的月付价格,甚至还贴心地自动补充了用户评价轮播。

对了,还有一个有趣的细节。

此前外界盛传 OpenAI 对英伟达的 AI 芯片颇有微词,但这次官方博客特地强调:GPT-5.3-Codex 的设计、训练和部署都在 NVIDIA GB200 NVL72 系统上完成。

这一波高情商操作,属实是给足了黄仁勋面子。

告别“金鱼记忆”,Claude 绝地反击

在 GPT-5.3-Codex 发布的几乎同时,Anthropic 也端出了自己的春节大礼包——春节 AI 模型大战,真没想到先从硅谷开打了……

坏消息是,这次既不是大家期待已久的 Claude 模型家族“第五代”,也没有“中杯”Sonnet 模型的更新。这次 Anthropic 直接端出了“超大杯”Claude Opus 4.6。

相比于 OpenAI 在行动力上的激进,Anthropic 今天发布的 Claude Opus 4.6 则是在思考力和可靠性上死磕。

这一波也是直接呼应了昨天超级碗系列广告的主题:Claude is a place to think(Claude 是思考的空间——思考是不需要广告的,可以说直接阴阳了 ChatGPT。)

在各种专业场景的大模型使用中,用户经常遇到上下文腐蚀的痛点,号称的上下文长度实际根本没达到就断点,经常自动切断上下文——没错说你呢 Sonnet 和 GPT……

而 Opus 4.6 在上下文腐蚀上面有了显著的改善:在 MRCR v2(长文本大海捞针)测试中,Claude Opus 4.6 的召回率高达 76%。作为对比,上一代 Sonnet 4.5 只有惨不忍睹的 18.5%。从某种程度上说,这是一个从基本不可用到高可靠的质变。

Anthropic 宣称,Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

这意味着什么?意味着你可以把几百页的财报、几十万字的代码库直接扔给它,它不仅能读完,还能精准地保存和定位上下文细节,告诉你第 342 页脚注里的那个数字有问题。

此外,它现在还支持最高 128k 的输出 Token,可以一次性写完长篇研报或复杂的代码库,而不用因为字数限制被迫截断、重开会话。

除了记性好,Opus 4.6 这次还在智商上实现了碾压:

在 GDPval-AA(一项针对金融、法律等高经济价值任务的评估)中,Opus 4.6 的 Elo 得分比业界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。

在复杂的多学科推理测试 Humanity's Last Exam 中,它领先所有前沿模型。

在测试寻找互联网“难找信息”能力的 BrowseComp 中,它同样表现最优。

换言之:如果你要处理复杂的商业决策、法律文书或金融分析,Claude 是唯一的优秀选择。

更让打工人眼前一亮的是它的生产力功能。

一方面,Anthropic 这回直接把办公三件套塞进了 Claude,它能根据 Excel 报表数据直接生成 PPT 汇报文件,不仅保留排版风格,连字体和模板都能对齐。在 Claude Cowork 协作环境中,它甚至能进行自主多任务处理。

Claude Code 还推出了实验性的 Agent Teams 功能,让普通开发者也能体验这种“指挥千军万马”的感觉(这也是 2026 年初的 AI 公司们在 Agent 方向上都在押注的路径):

角色分工:你可以指定一个 Claude Session 担任 Team Lead(组长),它不干脏活累活,专门负责拆解任务、分配工单、合并代码;其他的 Session 则是队友(Teammates),各自领任务去干。

独立作战:每个队友都有独立的上下文窗口(不用担心 Token 爆炸),它们甚至能背着你互相发消息(Inter-agent messaging),讨论技术细节,最后只把结果汇报给组长。

并行赛马:这东西有什么用?想象一下查一个顽固 Bug,你可以生成 5 个 Agent,分别验证 5 种不同的假设,像“赛马”一样并行排雷;或者在 Code Review 时,让一个队友扮“安全专家”查漏洞,一个扮“架构师”看性能,互不干扰。

为了展示 Opus 4.6 的极限,Anthropic 的研究员 Nicholas Carlini 搞了个疯狂的实验:充值了 2 万美元的 API 额度,让 16 个 Claude Opus 4.6 组成一个“全自动软件开发团队”。

结果在短短两周内,这群 AI 自主进行了 2000 多个编程会话,从零手写了一个 10 万行代码的 C 语言编译器(基于 Rust)。

这个 AI 写的编译器,还成功编译了 Linux 6.9 内核(涵盖 x86、ARM 和 RISC-V 架构),甚至跑通了 Doom 游戏。

虽然它还不够完美,但这个案例也足够说明:vibe coding 氛围编程仅仅问世一年就过气了……以后我们真的可以直接下命令,然后看着 AI 从零开始完成一整个复杂产品项目了。

定价方面,Anthropic 这次很良心,维持在每百万 Token $5/$25 的基础定价。看来是为了维护住企业级市场这条优势路,铁了心要卷到底。

一个是激进天才,一个是靠谱老牛

知名 AI 评测人 Dan Shipper 在第一时间搞了个“盲测”(Vibe Check),他的评价非常精准:

Claude Opus 4.6 是“高上限,高方差”(High Ceiling, High Variance)。

它像是一个才华横溢但偶尔跳脱的天才。在测试中,它直接解决了一个让 iOS 团队卡了两个月的功能难题;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶尔也会“过度自信”,一本正经地胡说八道。如果你需要突破性的灵感,选它。

GPT-5.3-Codex 则是“高可靠,低方差”(High Reliability, Low Variance)。

它像是一个经验丰富、绝不掉链子的资深工程师。推理速度提升 25%,几乎不犯低级错误,稳健得让人心安。

虽然在创造性任务上略逊一筹(LFG 得分 7.5/10),但在日常的 Coding 和运维任务中,它是最高效的老黄牛。

当然,比起选择哪款模型,更重要的是,当 ChatGPT 可以自主修 Bug 甚至操作你的终端,当 Claude 可以一次性吞吐海量文档并精准定位细节时,Prompt Engineering(提示词工程)的重要性正在下降,而 Agent Management(智能体管理)的能力开始浮出水面。

我们不再需要像教小学生一样,把指令拆解得碎碎念。相反,我们需要做的,是学会如何以管理者的身份,去定义目标、审核结果、以及决定在什么时候,把什么任务交给哪位 AI 员工。

这就是 2026 年的新职场。你的团队里混入了一群硅基天才,而你是唯一的碳基老板。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10