蘋果M3 Ultra加雙英偉達DGX Spark並聯,AI性能提升2.8倍

IT之家
2025/10/17

IT之家 10 月 17 日消息,EXO Labs 昨日展示了其「分佈式推理」新成果,解決了被部分網友戲稱為「世紀難題」的選擇問題 —— 買 AI 小主機究竟是買蘋果 Mac Studio 還是買英偉達 DGX Spark?

如圖所示,EXO Labs 同時使用了兩台 NVIDIA DGX Spark 與一台搭載 M3 Ultra 芯片的 Mac Studio,在 AI 大語言模型推理測試中取得 2.8 倍性能提升。

該成果基於 EXO Labs 的開源項目 EXO,該框架旨在讓大語言模型(LLM)能夠高效運行於不同硬件的混合環境中。

與傳統僅依賴單一 GPU 或加速器的推理方式不同,EXO 可將工作負載自動分配到多種設備上,使台式機、筆記本、服務器甚至平板電腦與智能手機組成類似 WiFi Mesh 網絡的「AI Mesh」。

DGX Spark 與 M3 Ultra 的互補組合

正如 EXO 所述,3999 美元(IT之家注:現匯率約合 28505 元人民幣)的 DGX Spark 側重計算性能,而 5599 美元(現匯率約合 39910 元人民幣) Mac Studio 則在數據帶寬上更具優勢。在這裏,EXO 直接將兩台 DGX Spark 與一台 Mac Studio 組合成統一的 AI 系統。

大型語言模型的推理過程通常分為兩個階段:

預填充(prefill)階段:模型讀取和處理輸入提示,這一階段主要受計算性能限制;

解碼(decode)階段:模型逐個生成新詞元(token),此過程更依賴內存帶寬。

EXO 的方案是將兩階段分配給不同設備執行:

DGX Spark 負責計算密集的預填充任務,而 M3 Ultra 負責帶寬敏感的解碼任務。系統通過逐層傳輸模型的內部數據(稱為 KV 緩存),實現兩台設備的同時工作,而非依次等待。

在使用 Meta Llama-3.1 8B 模型進行的基準測試中,該混合架構相較單獨使用 Mac Studio,推理性能提升 2.8 倍。測試中 DGX Spark 的預填充速度比 Mac Studio 快 3.8 倍,而 Mac Studio 的生成速度又比 DGX Spark 快 3.4 倍,實現了性能互補。

「分佈式推理」助力低成本擴展 AI 算力

EXO 的實驗展示了一種不同於傳統單機加速的 AI 擴展思路。未來 AI 性能的提升,或不再依賴單一大型加速器,而是通過更智能的硬件協同實現整體算力的提升。

類似的理念也出現在 NVIDIA 自家的新一代 Rubin CPX 平台設計中:計算密集型的上下文構建由 Rubin CPX 處理器完成,而具有高帶寬 HBM3e 內存的標準 Rubin 芯片負責解碼階段,與 EXO 在現成硬件上實現的原理一致。

EXO 1.0 仍處早期階段

EXO 當前的早期訪問版本 1.0 仍屬實驗性質,尚未全面公開。現有的開源版本 0.0.15-alpha 發布於 2025 年 3 月,後續版本計劃引入自動調度、KV 流式傳輸和異構硬件優化功能。

目前 EXO 仍是研究級工具,尚不適合普通消費者直接使用,但其演示結果表明:通過智能調度不同硬件資源,分佈式推理架構能在無需大型數據中心的前提下顯著提升 AI 性能。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10