倆人拼出 40 萬的 Mac Studio縫合怪，雙開滿血 DeepSeek 不在話下

被蘋果發現

而且

點了讚

幾個月前，愛範兒在一臺 M3 Ultra 的 Mac Studio 上，成功部署了 671B 的 DeepSeek 的本地大模型（4-bit 量化版）。

而如果我們搞來 4 臺頂配 Mac Studio……

每一臺都是 M3 Ultra

512GB 統一內存

819GB/s 內存帶寬

80 核 GPU

80Gbps 雷靂 5 雙向傳輸……

把這四頭猛獸，通過開源工具串聯成一個「桌面級 AI 集羣」——能否把本地推理的天花板再抬高一個維度？

這也是來自英國創業公司 Exo Labs 正嘗試解決的問題。而愛範兒成為了首批見到這個全新解決方案的中國媒體之一。

「地主家也沒有餘糧」

你可能會以為，像牛津這樣的頂級大學肯定 GPU 多得用不完，但其實完全不是這樣。

Exo Labs 創始人 Alex 和 Seth 畢業於牛津大學——即使在這樣的頂尖高校做研究，想要使用 GPU 集羣也需要提前數月排隊，一次只能申請一張卡，流程漫長而低效。

（別說牛津大學了，就連美國的國家實驗室系統，擁有的超算集羣算力也同樣需要預約排隊。）

Alex 和 Seth 發現了一個現象：當前 AI 基礎設施的高度集中化，使得個人研究者和小型團隊被邊緣化。

為瞭解決問題，他們在去年 7 月啓動了第一次實驗，串聯了手頭上的兩臺 MacBook Pro，然後跑通了 LLaMA 模型。雖然性能有限，每秒只能輸出 3 個 token，但已經足以驗證 Apple Silicon 架構用於 AI 分佈式推理的可行性。

更重要的是，儘管 LMStudio 等本地跑大模型的基礎設施解決方案已經比較普遍了，但串聯多臺消費級電腦——組成集羣——相關方案在當時仍然屬於「未知水域」。

而這個小團隊的工作，也被蘋果注意到了。

MacBook Pro 的算力終究是有限的，而二人集羣化 Mac 電腦的工作，在今年 3 月迎來了一個關鍵的轉折點：蘋果發佈了 M3 Ultra 頂配處理器版本的 Mac Studio。

512GB 統一內存、819GB/s 的內存帶寬、80 核 GPU，再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——真正強有力的，足以運行 2025 上半年滿血版大模型的本地 AI 集羣，終於從理想變成了現實。

同時跑兩個 670 億參數大模型是什麼體驗？

4 臺頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯後，賬面數據相當驚人：

128 核 CPU（32×4）

240 個 GPU 核心（80×4）

2TB 統一內存（512GB×4）

總內存帶寬超過 3TB/s

這樣的組合，性能已經稱得上是一臺小型超算了，但從體積上仍然（勉強）可歸到「家用級」。

但硬件只是基礎，真正發揮效能的關鍵是 Exo Labs 開發的分佈式模型調度平臺 Exo V2。Exo V2 會根據內存與帶寬狀態將模型自動拆分，部署在最合適的節點上。

Exo Labs 和蘋果在現場提供了 Exo V2 的 demo，向愛範兒展示了以下核心能力：

大模型加載：8-bit 量化後的 DeepSeek，完整載入需要高達 700GB 內存，單臺 Mac Studio 無力承擔。而 Exo 的軟件會將模型拆分部署到 2 臺 Mac Studio 上完成加載。激活後，它的流式輸出「打字速度」基本上超過了人的閱讀速度。

並行推理：在 DeepSeek V3 仍在兩臺頂配 Mac Studio 上跑着的同時，又加載了同樣 670 億參數的 DeepSeek R1。系統立即將 R1 分配到剩餘的兩臺 Mac Studio，實現兩個大模型並行推理，支持多用戶同時提問。

私有文檔 RAG 問答：拖入公司財報 PDF，模型在本地完成知識嵌入與問答，不依賴任何雲端資源，數據完全私有可控。

輕量微調：若企業有數千份內部資料，可通過 QLoRA + LoRA 技術進行本地微調。如果只用單臺 Mac Studio，微調的耗時仍然長達數日，但 Exo 的集羣調度能力，使得訓練任務可線性加速，大幅縮短時間成本。

巨大的成本差異

愛範兒在現場後臺觀察拓撲圖發現：即使 4 臺機器同時處於高負載狀態，整套系統功耗始終控制在 400W 以內，運行幾乎無風扇噪音。

要在傳統服務器方案中實現同等性能，至少需要部署 20 張 A100 顯卡，服務器加網絡設備成本超 200 萬人民幣，功耗達數千瓦，還需獨立機房與製冷系統。

——就這樣，蘋果 M 芯片在 AI 大模型的浪潮中，意外地找到了一個新的定位。確實令人沒想到。

Exo Labs 基於 M3 Ultra Mac Studio 開發的這個套組，起售價 32999 元，配備 96GB 統一內存。而 512GB 的頂配版本，更是價格不菲。

但從技術角度來看，統一內存架構帶來的優勢是革命性的。

在設計 M 芯片之初，蘋果更多是為節能、高效的個人創作而生。但統一內存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性，反而非常適合 AI 本地推理這件事，雖然意料之外，卻又在情理之中。

傳統 GPU，即使是最高端的工作站卡，顯存通常也只有 96GB。而蘋果的統一內存讓 CPU 和 GPU 共享同一塊高帶寬內存，避免了數據在不同存儲層級之間的頻繁搬運，這對大模型推理來說意義重大。

當然，EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗，不是為了訓練下一代 GPT，而是為瞭解決實際的應用問題：運行自己的模型，保護自己的數據，進行必要的微調優化。

如果說 H100 是金字塔頂的王者，而 Mac Studio 正在成為中小團隊手中的瑞士軍刀。

文｜喬納森何

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

倆人拼出 40 萬的 Mac Studio縫合怪，雙開滿血 DeepSeek 不在話下

熱議股票