扎克伯格重開一局

文｜強調Next

這是過去一年裏Meta最需要一個好消息的時刻。Llama4的基準造假醜聞讓開發者社區徹底寒了心，旗艦項目Behemoth遲遲沒有下文，與此同時OpenAI、Anthropic和Google的軍備競賽越打越猛。

扎克伯格今天把Muse Spark推到了台前。

這是Meta超級智能實驗室（MSL）交出的第一份答卷，也是汪韜（AlexandrWang）加入Meta九個月後，第一次向外界證明這筆143億美元的賭注沒有白下。發布當日，Meta股價盤中最高升逾10%，收漲約9%，市場給出了它想看到的那個答案。

一、九個月，從廢墟里蓋起來

要理解MuseSpark，先得理解它是怎麼來的。

去年夏天，Llama4的基準測試被抓了現行：Meta承認拿了針對特定任務微調的專用版本去刷分，普通用戶能用到的那個，跟公布的數據壓根對不上。這件事對MetaAI的品牌傷害不小，但更深的問題在於，就算沒有造假，Llama4也沒能在前沿模型序列裏站穩腳跟。

扎克伯格再次推倒重來。

他找來了時年29歲的ScaleAI聯合創始人汪韜，花143億美元買下ScaleAI49%的非投票股權，把汪韜塞進Meta首席AI官的位置，同時成立Meta超級智能實驗室，從OpenAI、Anthropic、Google高薪挖人，據報道部分研究員的薪酬包含股權在內達到數億美元。

然後是整整九個月的沉默。

汪韜在X上寫道：「九個月前，我們從零開始重建了AI技術棧。新的基礎設施、新的架構、新的數據流水線。」不是在原有基礎上打補丁，是字面意義上的重頭來過。

結果就是MuseSpark。內部代號Avocado，是Meta新Muse系列的首個型號，定位輕量、快速，但具備完整的推理能力。

二、「思維壓縮」：效率纔是真正的護城河

Muse Spark最讓人意外的數字，不是某個基準測試的排名，而是計算效率。

Meta聲稱，Muse Spark達到Llama4Maverick同等性能水平所需的計算量，減少了十倍以上。背後是一種叫做「思維壓縮（ThoughtCompression）」的訓練技術：在強化學習階段，對模型過度思考的行為施加懲罰，迫使它用更少的推理token解決同樣的問題，同時不犧牲準確率。

這件事的戰略意義比表面看起來大得多。

AI軍備競賽進入2026年，算力成本依然是最核心的約束之一。Meta今年的AI基礎設施支出上限調至1350億美元，比上年幾乎翻倍。但光砸錢不夠，燒得更高效纔是差異點。如果十分之一的計算量能跑出同等智力水平，那意味着同樣的預算可以跑更多次實驗、迭代更多代模型。

從這個角度看，「思維壓縮」不只是一個技術細節，它意味着這套新架構是可以規模化的。

三、偏科的「視覺天才」

評估一個新模型，先看它的長板和短板分別在哪裏。Muse Spark的性格相當鮮明。

長板：多模態與健康

第三方機構ArtificialAnalysis的獨立評測，給Muse Spark打出了52分（滿分參照系中），在IntelligenceIndexv4.0排名第四，位列Gemini3.1Pro（57）、GPT-5.4（57）和ClaudeOpus4.6（53）之後。

但在具體科目上，Muse Spark的多模態能力是真實的強項。視覺理解（MMMU-Pro）排名第二，得80.5，僅次於Gemini3.1Pro的82.4。圖表推理（CharXivReasoning）得86.4，力壓Gemini的80.2和GPT-5.4的82.8，全場第一。

HealthBenchHard上，Muse Spark拿了42.8，超過GPT-5.4的40.1，把Gemini3.1Pro的20.6甩開一大截。Meta號稱與超過1000名醫生合作，專門為健康場景定製了訓練數據。

短板：邏輯推理與代碼

然後是短板，同樣明顯。

ARCAGI2（抽象推理）：Muse Spark得42.5，而Gemini3.1Pro得76.5，GPT-5.4得76.1。差距將近一倍，這個分佈不像是追分的問題，更像是架構層面的結構性缺口。

終端編程（Terminal-Bench2.0）：Muse Spark得59.0，GPT-5.4是75.1，Gemini是68.5。Meta自己的技術博客裏也直接承認，「長程agentic系統和代碼工作流」是當前的重點投入方向。

三級推理模式

模型提供三種模式：Instant（即時）、Thinking（思考）、Contemplating（沉思）。Contemplating模式最有意思——它並行啓動多個子智能體，分頭處理任務再綜合結論。Meta宣稱在這個模式下，HLE（人類最後考試）得分達到58%，FrontierScienceResearch達到38%，能跟GeminiDeepThink和GPTPro在同一個場上競爭。

值得一提的是，Muse Spark的token效率也很出色——在IntelligenceIndex測評中使用了約5800萬輸出token，與Gemini3.1Pro相當，遠低於ClaudeOpus4.6的1.57億。

四、深水炸彈：這對DeepSeek意味着什麼？

Muse Spark走向閉源，不僅是Meta的轉型，更是全球AI生態的一次大洗牌。首當其衝的，就是一直以「開源高效率」著稱的DeepSeek。

DeepSeek此前憑藉極致的算力利用率在開源界封神，但Muse Spark提出的「思維壓縮」直接在閉源側把效率拉到了新高度。如果閉源模型不僅智力更強，連推理成本都下探到開源模型的水平，DeepSeek這種「平替」的性價比優勢將被大幅削弱。

當然，Meta撤出開源，意味着開源界失去了一根定海神針。這給DeepSeek留下了巨大的市場空間去接管那些「被背叛」的開發者，但同時也讓DeepSeek陷入了孤軍奮戰。沒有了Llama作為行業標準，DeepSeek必須獨自面對閉源巨頭們更厚的技術壁壘。

不過，汪韜主導的這次重建，在多模態融合和推理效率上的思路，與DeepSeek追求的方向高度重合。這意味着接下來的競賽將不再是「開源vs閉源」的意識形態之爭，而是純粹的、關於「誰能用更少的卡跑出更強的智力」的終極對決。

五、最大的新聞：開源時代結束了

從2023年開始，Llama系列是硅谷「開源AI」的精神圖騰。開發者靠Llama做了無數應用，學術界用它做研究，初創公司用它起家，甚至競爭對手也拿它作為參照系。Meta在這件事上賺到的品牌資產，是其AI業務最重要的護城河之一。

Muse Spark放棄了這個護城河。

官方說法很溫和：「我們希望未來版本能夠開源。」但沒有時間表，沒有承諾，沒有框架。當下這個版本，只能通過MetaAI應用、meta.ai網站使用，部分合作伙伴可以申請API私測資格。架構和權重不公開。

這是徹底的閉源。

從商業邏輯上不難理解。Meta今年AI基礎設施支出上限1350億美元，這個數字需要收入來支撐，單靠開源的生態聲望顯然不夠用。當競爭對手的每一代模型都在拉開能力差距時，把最先進的架構創新保持私密，是避免自己的研發成果直接養肥對手的理性選擇。

但從開發者社區的視角，這是一次背叛。Llama之所以有價值，恰恰因為它可以被下載、被修改、被本地部署。Muse Spark做不到這些。開發者失去的不只是一個可用的模型，而是一整套建立在Meta開放性信譽上的工作流。

汪韜在X上說得很直白：「這是第一步，更大的模型已經在開發中。」言下之意，Muse Spark只是Muse系列的起點，後面的Muse纔是真正的重頭戲。這個表述在技術上可能是真的，但對那些已經依賴Llama生態的開發者來說，這個「未來的承諾」能不能兌現不好說。

六、扎克伯格真正在下的那盤棋

把Muse Spark放在產品層面看，它有點像今天的字節。

個人超級智能，這是扎克伯格在Facebook帖子裏用的詞。Muse Spark將直接驅動Facebook、Instagram、WhatsApp、Messenger上的MetaAI助手，以及Ray-BanMetaAI眼鏡。超過35億人的觸點，這是OpenAI和Anthropic沒有的分發優勢。

購物模式最能說明問題。MetaAI識別用戶在Instagram上看到的穿搭或傢俱，結合用戶的興趣數據和行為信號，直接推薦商品並完成購買。這不只是個好用的功能，這是Meta的社交圖譜和用戶數據，第一次被系統性地接入AI推理鏈條。

健康場景的佈局同樣值得注意。與1000名醫生合作定製訓練數據，這是Meta試圖在醫療健康信息領域佔據位置的明確信號。這個場景的黏性高、用戶需求真實，但同時也意味着隱私風險極高——用戶需要用Facebook或Instagram賬號登入才能使用Muse Spark，而Meta的隱私政策對於如何使用這些健康查詢數據，措辭相當模糊。

從競爭格局來看，Muse Spark的發布時機很有意思。就在前一天，Anthropic啱啱公布了ClaudeMythos，初始僅向少數企業客戶開放，重點指向網絡安全防禦。中國的Z.AI本周也在代碼基準SWE-BenchPro上刷了新高。前沿AI的戰線越來越寬，入局的玩家越來越多。

在這個背景下，Muse Spark想做的事，是把Meta重新釘回頂層牌桌——不一定是最強，但得夠格參與對話。

七、Llama4的幽靈還在

最後還有一個問題，沒有人能假裝忘掉Llama4的基準造假。

那次事件之後，Meta對所有自己公布的測試數據都欠下了一筆信譽債。Muse Spark發布時附上了大量基準數字，ArtificialAnalysis也拿到了早期測試資格並獨立評測。

但這個問題始終存在，你怎麼知道這次是真實的？

Muse Spark的Contemplating模式，是所有用戶都能用到的那個，還是又是一個專為基準測試微調的特供版本？

Meta說Contemplating模式會「逐步推出」，這個措辭留了太多解釋空間。

結語

Muse Spark是一張入場券，不是終點。

它證明汪韜主導的九個月重建是有產出的，證明」思維壓縮」這個新技術能跑出比Llama4Maverick高得多的效率，也證明Meta在多模態和健康領域找到了真實的差異化空間。

但它同時也是一個信號：Meta放棄了它在AI領域最獨特的定位。Llama時代，Meta是那個把尖端模型免費開放給所有人的硅谷巨頭，這件事讓它在開發者心中的地位跟OpenAI和Anthropic完全不同。現在這個定位沒了。

接下來Muse系列會湧出更強大的模型。更大的基建，更多的工程師，更高的算力密度。扎克伯格說得很清楚，這場賭局還在中場。

但有一件事已經確定：開源的Meta，結束了。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

扎克伯格重開一局

熱議股票