倆人拼出 40 萬的 Mac Studio縫合怪,雙開滿血 DeepSeek 不在話下

愛範兒
08/09

蘋果發現

而且

點了讚

幾個月前,愛範兒在一臺 M3 Ultra 的 Mac Studio 上,成功部署了 671B 的 DeepSeek 的本地大模型(4-bit 量化版)。

而如果我們搞來 4 臺頂配 Mac Studio……

每一臺都是 M3 Ultra

512GB 統一內存

819GB/s 內存帶寬

80 核 GPU

80Gbps 雷靂 5 雙向傳輸……

把這四頭猛獸,通過開源工具串聯成一個「桌面級 AI 集羣」——能否把本地推理的天花板再抬高一個維度?

這也是來自英國創業公司 Exo Labs 正嘗試解決的問題。而愛範兒成為了首批見到這個全新解決方案的中國媒體之一。

「地主家也沒有餘糧」

你可能會以為,像牛津這樣的頂級大學肯定 GPU 多得用不完,但其實完全不是這樣。

Exo Labs 創始人 Alex 和 Seth 畢業於牛津大學——即使在這樣的頂尖高校做研究,想要使用 GPU 集羣也需要提前數月排隊,一次只能申請一張卡,流程漫長而低效。

(別說牛津大學了,就連美國的國家實驗室系統,擁有的超算集羣算力也同樣需要預約排隊。)

Alex 和 Seth 發現了一個現象:當前 AI 基礎設施的高度集中化,使得個人研究者和小型團隊被邊緣化。

為瞭解決問題,他們在去年 7 月啓動了第一次實驗,串聯了手頭上的兩臺 MacBook Pro,然後跑通了 LLaMA 模型。雖然性能有限,每秒只能輸出 3 個 token,但已經足以驗證 Apple Silicon 架構用於 AI 分佈式推理的可行性。

更重要的是,儘管 LMStudio 等本地跑大模型的基礎設施解決方案已經比較普遍了,但串聯多臺消費級電腦——組成集羣——相關方案在當時仍然屬於「未知水域」。

而這個小團隊的工作,也被蘋果注意到了。

MacBook Pro 的算力終究是有限的,而二人集羣化 Mac 電腦的工作,在今年 3 月迎來了一個關鍵的轉折點:蘋果發佈了 M3 Ultra 頂配處理器版本的 Mac Studio。

512GB 統一內存、819GB/s 的內存帶寬、80 核 GPU,再加上 Thunderbolt 5 的 80Gbps 雙向傳輸能力——真正強有力的,足以運行 2025 上半年滿血版大模型的本地 AI 集羣,終於從理想變成了現實。

同時跑兩個 670 億參數大模型是什麼體驗?

4 臺頂配 M3 Ultra 的 Mac Studio 通過 Thunderbolt 5 串聯後,賬面數據相當驚人:

128 核 CPU(32×4)

240 個 GPU 核心(80×4)

2TB 統一內存(512GB×4)

總內存帶寬超過 3TB/s

這樣的組合,性能已經稱得上是一臺小型超算了,但從體積上仍然(勉強)可歸到「家用級」。

但硬件只是基礎,真正發揮效能的關鍵是 Exo Labs 開發的分佈式模型調度平臺 Exo V2。Exo V2 會根據內存與帶寬狀態將模型自動拆分,部署在最合適的節點上。

Exo Labs 和蘋果在現場提供了 Exo V2 的 demo,向愛範兒展示了以下核心能力:

大模型加載:8-bit 量化後的 DeepSeek,完整載入需要高達 700GB 內存,單臺 Mac Studio 無力承擔。而 Exo 的軟件會將模型拆分部署到 2 臺 Mac Studio 上完成加載。激活後,它的流式輸出「打字速度」基本上超過了人的閱讀速度。

並行推理:在 DeepSeek V3 仍在兩臺頂配 Mac Studio 上跑着的同時,又加載了同樣 670 億參數的 DeepSeek R1。系統立即將 R1 分配到剩餘的兩臺 Mac Studio,實現兩個大模型並行推理,支持多用戶同時提問。

私有文檔 RAG 問答:拖入公司財報 PDF,模型在本地完成知識嵌入與問答,不依賴任何雲端資源,數據完全私有可控。

輕量微調:若企業有數千份內部資料,可通過 QLoRA + LoRA 技術進行本地微調。如果只用單臺 Mac Studio,微調的耗時仍然長達數日,但 Exo 的集羣調度能力,使得訓練任務可線性加速,大幅縮短時間成本。

巨大的成本差異

愛範兒在現場後臺觀察拓撲圖發現:即使 4 臺機器同時處於高負載狀態,整套系統功耗始終控制在 400W 以內,運行幾乎無風扇噪音。

要在傳統服務器方案中實現同等性能,至少需要部署 20 張 A100 顯卡,服務器加網絡設備成本超 200 萬人民幣,功耗達數千瓦,還需獨立機房與製冷系統。

——就這樣,蘋果 M 芯片在 AI 大模型的浪潮中,意外地找到了一個新的定位。確實令人沒想到。

Exo Labs 基於 M3 Ultra Mac Studio 開發的這個套組,起售價 32999 元,配備 96GB 統一內存。而 512GB 的頂配版本,更是價格不菲。

但從技術角度來看,統一內存架構帶來的優勢是革命性的。

在設計 M 芯片之初,蘋果更多是為節能、高效的個人創作而生。但統一內存、高帶寬 GPU、Thunderbolt 多路徑聚合等特性,反而非常適合 AI 本地推理這件事,雖然意料之外,卻又在情理之中。

傳統 GPU,即使是最高端的工作站卡,顯存通常也只有 96GB。而蘋果的統一內存讓 CPU 和 GPU 共享同一塊高帶寬內存,避免了數據在不同存儲層級之間的頻繁搬運,這對大模型推理來說意義重大。

當然,EXO 這套方案也有明顯的定位差異。它不是為了與 H100 正面對抗,不是為了訓練下一代 GPT,而是為瞭解決實際的應用問題:運行自己的模型,保護自己的數據,進行必要的微調優化。

如果說 H100 是金字塔頂的王者,而 Mac Studio 正在成為中小團隊手中的瑞士軍刀。

文|喬納森何

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10