春節模型大戰,硅谷率先打響:GPT 和 Claude 大更新撞車了

愛範兒
02/06

就在啱啱,硅谷 AI 圈上演了一出「火星撞地球」。

OpenAI 和 Anthropic 彷彿商量好似的,同時甩出了自家的重磅更新:Claude Opus 4.6 和 GPT-5.3-Codex。

如果說昨晚之前,我們還在討論怎麼寫好 Prompt 輔助工作;那麼今天過後,我們可能需要學會如何作為老闆去管理 AI 員工。

AI 造 AI,順便接管你的電腦

前一天晚上,Sam Altman 還在因為對手 Anthropic 的超級碗廣告而破防紅溫,今天就直接扔出王炸:

GPT-5.3-Codex。

技術文檔裏藏着一句極具分量的話:「這是我們第一個在創造自己的過程中,發揮了關鍵作用的模型。」

說人話就是:AI 已經學會了自己寫代碼、自己找 Bug,甚至開始自己訓練下一代的 AI 了。

更關鍵的是,這種自我進化能力,能夠直接用跑分數據體現。

在模擬人類操作電腦的 OSWorld-Verified 基準測試上,前代模型只有 38.2% 的準確率,完全不及格。

但這次,GPT-5.3-Codex 直接跳漲到了 64.7%。

要知道,人類的平均水平也就 72%。

這意味着,AI 距離像你一樣熟練地甩鼠標、切屏、操作軟件,已經很近很近了。

而在 Terminal-Bench 2.0(命令行操作基準測試)中,它更是拿下了 77.3% 的高分,把 GPT-5.2(62.2%)遠遠甩在身後。

在 SWE-Bench Pro 基準測試(覆蓋四種編程語言,不僅抗污染,還全是真實世界的硬核工程難題)當中,GPT-5.3-Codex 也穩定實現 SOTA 水準, token 用量遠比以往模型更低。

5.3-Codex 獨立構建的能力也毋庸置疑:在 OpenAI 的測試中,用它在幾天時間裏從零構建了一款包含多張地圖的賽車遊戲 v2,順手還搞定了一款管理氧氣系統的深海潛水遊戲。

5.3-Codex 對模糊意圖的理解能力,同樣令人深刻。

在構建網頁時,它自動把年度計劃換算成了打折後的月付價格,甚至還貼心地自動補充了用戶評價輪播。

對了,還有一個有趣的細節。

此前外界盛傳 OpenAI 對英偉達的 AI 芯片頗有微詞,但這次官方博客特地強調:GPT-5.3-Codex 的設計、訓練和部署都在 NVIDIA GB200 NVL72 系統上完成。

這一波高情商操作,屬實是給足了黃仁勳面子。

告別「金魚記憶」,Claude 絕地反擊

在 GPT-5.3-Codex 發布的幾乎同時,Anthropic 也端出了自己的春節大禮包——春節 AI 模型大戰,真沒想到先從硅谷開打了……

壞消息是,這次既不是大家期待已久的 Claude 模型家族「第五代」,也沒有「中杯」Sonnet 模型的更新。這次 Anthropic 直接端出了「超大杯」Claude Opus 4.6。

相比於 OpenAI 在行動力上的激進,Anthropic 今天發布的 Claude Opus 4.6 則是在思考力和可靠性上死磕。

這一波也是直接呼應了昨天超級碗系列廣告的主題:Claude is a place to think(Claude 是思考的空間——思考是不需要廣告的,可以說直接陰陽了 ChatGPT。)

在各種專業場景的大模型使用中,用戶經常遇到上下文腐蝕的痛點,號稱的上下文長度實際根本沒達到就斷點,經常自動切斷上下文——沒錯說你呢 Sonnet 和 GPT……

而 Opus 4.6 在上下文腐蝕上面有了顯著的改善:在 MRCR v2(長文本大海撈針)測試中,Claude Opus 4.6 的召回率高達 76%。作為對比,上一代 Sonnet 4.5 只有慘不忍睹的 18.5%。從某種程度上說,這是一個從基本不可用到高可靠的質變。

Anthropic 宣稱,Claude Opus 4.6 首次引入了真正可用的 1M 上下文窗口。

這意味着什麼?意味着你可以把幾百頁的財報、幾十萬字的代碼庫直接扔給它,它不僅能讀完,還能精準地保存和定位上下文細節,告訴你第 342 頁腳註裏的那個數字有問題。

此外,它現在還支持最高 128k 的輸出 Token,可以一次性寫完長篇研報或複雜的代碼庫,而不用因為字數限制被迫截斷、重開會話。

除了記性好,Opus 4.6 這次還在智商上實現了碾壓:

在 GDPval-AA(一項針對金融、法律等高經濟價值任務的評估)中,Opus 4.6 的 Elo 得分比業界第二(OpenAI 的 GPT-5.2)高出了整整 144 分,比前代更是高出 190 分。

在複雜的多學科推理測試 Humanity's Last Exam 中,它領先所有前沿模型。

在測試尋找互聯網「難找信息」能力的 BrowseComp 中,它同樣表現最優。

換言之:如果你要處理複雜的商業決策、法律文書或金融分析,Claude 是唯一的優秀選擇。

更讓打工人眼前一亮的是它的生產力功能。

一方面,Anthropic 這回直接把辦公三件套塞進了 Claude,它能根據 Excel 報表數據直接生成 PPT 彙報文件,不僅保留排版風格,連字體和模板都能對齊。在 Claude Cowork 協作環境中,它甚至能進行自主多任務處理。

Claude Code 還推出了實驗性的 Agent Teams 功能,讓普通開發者也能體驗這種「指揮千軍萬馬」的感覺(這也是 2026 年初的 AI 公司們在 Agent 方向上都在押注的路徑):

角色分工:你可以指定一個 Claude Session 擔任 Team Lead(組長),它不幹髒活累活,專門負責拆解任務、分配工單、合併代碼;其他的 Session 則是隊友(Teammates),各自領任務去幹。

獨立作戰:每個隊友都有獨立的上下文窗口(不用擔心 Token 爆炸),它們甚至能揹着你互相發消息(Inter-agent messaging),討論技術細節,最後只把結果彙報給組長。

並行賽馬:這東西有什麼用?想象一下查一個頑固 Bug,你可以生成 5 個 Agent,分別驗證 5 種不同的假設,像「賽馬」一樣並行排雷;或者在 Code Review 時,讓一個隊友扮「安全專家」查漏洞,一個扮「架構師」看性能,互不干擾。

為了展示 Opus 4.6 的極限,Anthropic 的研究員 Nicholas Carlini 搞了個瘋狂的實驗:充值了 2 萬美元的 API 額度,讓 16 個 Claude Opus 4.6 組成一個「全自動軟件開發團隊」。

結果在短短兩周內,這羣 AI 自主進行了 2000 多個編程會話,從零手寫了一個 10 萬行代碼的 C 語言編譯器(基於 Rust)。

這個 AI 寫的編譯器,還成功編譯了 Linux 6.9 內核(涵蓋 x86、ARM 和 RISC-V 架構),甚至跑通了 Doom 遊戲。

雖然它還不夠完美,但這個案例也足夠說明:vibe coding 氛圍編程僅僅問世一年就過氣了……以後我們真的可以直接下命令,然後看着 AI 從零開始完成一整個複雜產品項目了。

定價方面,Anthropic 這次很良心,維持在每百萬 Token $5/$25 的基礎定價。看來是為了維護住企業級市場這條優勢路,鐵了心要捲到底。

一個是激進天才,一個是靠譜老牛

知名 AI 評測人 Dan Shipper 在第一時間搞了個「盲測」(Vibe Check),他的評價非常精準:

Claude Opus 4.6 是「高上限,高方差」(High Ceiling, High Variance)。

它像是一個才華橫溢但偶爾跳脫的天才。在測試中,它直接解決了一個讓 iOS 團隊卡了兩個月的功能難題;在 LFG Benchmark 中拿到了 9.25/10 的高分。

但它偶爾也會「過度自信」,一本正經地胡說八道。如果你需要突破性的靈感,選它。

GPT-5.3-Codex 則是「高可靠,低方差」(High Reliability, Low Variance)。

它像是一個經驗豐富、絕不掉鏈子的資深工程師。推理速度提升 25%,幾乎不犯低級錯誤,穩健得讓人心安。

雖然在創造性任務上略遜一籌(LFG 得分 7.5/10),但在日常的 Coding 和運維任務中,它是最高效的老黃牛。

當然,比起選擇哪款模型,更重要的是,當 ChatGPT 可以自主修 Bug 甚至操作你的終端,當 Claude 可以一次性吞吐海量文檔並精準定位細節時,Prompt Engineering(提示詞工程)的重要性正在下降,而 Agent Management(智能體管理)的能力開始浮出水面。

我們不再需要像教小學生一樣,把指令拆解得碎碎念。相反,我們需要做的,是學會如何以管理者的身份,去定義目標、審核結果、以及決定在什麼時候,把什麼任務交給哪位 AI 員工。

這就是 2026 年的新職場。你的團隊裏混入了一羣硅基天才,而你是唯一的碳基老闆。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10