又一顆芯片,被英偉達打敗

半導體行業觀察
08/09

近日特斯拉解散Dojo團隊、負責人離職的消息甚囂塵上,也讓觀衆們唏噓不已。近幾年來,對於一衆攤開身子去做訓練芯片的大公司也好,初創企業也好,都是血淋淋的教訓:Graphcore一度號稱“IPU對抗GPU”,最終被軟銀收購,結束獨立衝鋒;英特爾/Habana(Gaudi)路線多、生態分裂,近來逐步併入 GPU/Falcon Shores 體系,淡化獨立加速器路線;Cerebras堅持晶圓級(WSE)差異化,產品與訂單在增長,但商業化和生態仍遠未與 CUDA 可比——這是“特種裝備”而非“通用平臺”。

自研訓練芯片這條道路,對絕大多數公司並不可行,能成的是極少數例外,不是可複製的範式。英偉達又贏了。

Dojo的“高開低走

Dojo 是特斯拉爲“現實世界場景”模型訓練而自研的數據中心級訓練系統。2019 年 4 月,馬斯克在“Autonomy 投資者日”首次拋出 Dojo 概念;2020 年 8 月,他稱受限於供電與散熱,系統“還需大約一年”才能就緒。2021 年 8 月的 AI Day 上,特斯拉正式發佈 D1 與 Training Tile,並同步公開 CFloat8/16 白皮書,給外界描繪了一條“自研算力+自研數值格式”的硬核路線。

在 2022 年的AI Day上,特斯拉給出 Dojo 的系統化擴展路徑:從自研 D1 芯片 Training Tile(5×5) System Tray Cabinet ExaPOD,目標是實現“超 1 ExaFLOP 級”的 ML 計算能力。

D1:臺積電 7nm,約 500 億晶體管,645 mm²,354 個計算核心;單芯 BF16/CFP8 ≈ 362 TFLOPS。

Training Tile:25 顆 D1 組成一塊水冷 Tile,BF16 ≈ 9 PFLOPS,以高帶寬片間互聯爲賣點。

(Dojo 系統圖示,圖源:Tesla

市場對 Dojo 的預期曾被推到高位——2023 年,摩根士丹利曾估算 Dojo 可能爲特斯拉帶來約 5000 億美元的增量價值。直到 2025 年 Q2 財報會上,馬斯克仍表示 Dojo 2 的目標是對標約 10 萬臺 H100 等價物。但現實層面,項目最終叫停。

期間多位核心技術負責人相繼離開:2018 年,最初受聘領導特斯拉芯片工作的 Jim Keller 離任;隨後 Ganesh Venkataramanan 接棒,2023 年離開並創立 DensityAI;近年持續主導芯片項目的 Peter Bannon 亦已離職,Dojo 項目隨之收尾。

更指向性的證據來自並行路線的推進。早在 2024 年 Q4,特斯拉在奧斯汀上線 “Cortex” 訓練集羣(對外口徑爲約 5 萬張 H100),並在 Q2’25 股東信裏披露新增 1.6 萬 H200,使整體規模約等於 6.7 萬張 H100。這說明 Dojo 未能成爲主力產線,特斯拉更多轉向“採購成熟GPU平臺”。事實也證明,買卡比造卡更快:除特斯拉外,馬斯克體系的 xAI/“Colossus” 同樣大規模採用英偉達 GPU,並配套 Spectrum-X 以太網做超大規模組網——連網絡棧都被英偉達打包交付。

亡羊補牢,爲時未晚

如今,特斯拉及時扭轉局面。

訓練側:外採爲主。特斯拉把主力訓練轉向可即刻部署、可線性擴容、生態成熟的英偉達(並補充部分 AMD),把“模型訓練週轉率(Time-to-Train)”拉回商業節奏。

推理側:自研爲主。與三星敲定 165 億美元長期代工協議(AI6),將車載/機器人/邊緣推理算力自控在手,貼近產品、風險更低、迭代更快。

組織側:約 20 名原訓練團隊成員加入 DensityAI,其餘併入公司數據中心/算力工程,避免在尚未收斂的訓練芯片路線繼續“燒時間”。

這套組合拳很務實:訓練端“買成熟產線”,推理端“做自己最懂的場景”,既把 Time-to-Train 和 Time-to-Market 拉回到商業節奏內,也避免在生態戰裏被迫充當“軟件平臺提供商”。

Dojo項目的倒閉可能對特斯拉來說並不是一個很大的損失。8月8日,馬斯克在社交平臺X上回應amit網友稱:“沒有必要同時擴展兩條截然不同的訓練芯片路線;Tesla AI5、AI6 以及後續芯片在推理方面將非常出色,至少在訓練方面也相當不錯。所有精力都集中在這上面。”

他還進一步補充道,“在超算集羣中,無論是用於推理還是訓練,將許多 AI5/AI6 芯片放在一塊板上是合乎情理的,這僅僅是爲了將網絡佈線的複雜性和成本降低幾個數量級。我想,這可以稱之爲 Dojo 3。”“AI4 和 AI5 之間在實際性能上的差異,遠超我所知的所有芯片版本。它真的很出色。”

爲什麼“自研訓練芯片”這麼難?

1)生態與軟件壁壘

訓練芯片不是單芯片競賽,框架適配、編譯器、內核庫、並行策略、調優工具鏈纔是吞時間的黑洞。英偉達把 CUDA/cuDNN/各類並行庫打磨了十幾年,後來者很難追平這個“隱形工程量”。業界多家廠商在軟件成熟度上“掉鏈子”,訓練端難以穩定釋放算力密度。

2)系統工程與供應鏈

先進封裝(CoWoS/SoIC)、HBM 供給、機櫃/供配電/散熱、互聯拓撲、集羣調度、可靠性工程,任何一環不夠強,TCO 就會被市售 GPU 平臺反殺。尤其是先進封裝和HBM這兩塊,2025年NVIDIA至少鎖定臺積電CoWoS-L 七成產能的報道頻出,HBM市場由 SK hynix/三星/美光三強主導,且 HBM3EHBM4 的節奏被各家緊緊盯住。沒有這些供給保障,自研方案即便流片成功,也會在封裝與內存上“卡脖子”。

3)需求與現金流節奏

自研要靠穩定、可預期且超大規模的自用訓練需求攤薄鉅額前期投入。除谷歌(TPU)和 AWS(Trainium)這類雲巨頭,鮮有人能把“芯片—集羣—雲服務”聯動成正循環。

Meta訓練芯也在逐步嘗試,今年3月份據路透社的報道,Meta正在測試首款 AI 訓練芯片,消息人士稱,測試部署是在Meta完成芯片的首次“流片”後開始的。這款芯片是該公司元訓練和推理加速器 (MTIA) 系列的最新產品。不過該項目多年來發展一直不太順利,甚至一度在類似的開發階段放棄一款芯片。目前Meta的MITA芯片仍以推理爲主,用於確定哪些內容出現在 Facebook 和 Instagram 新聞推送中的推薦系統。

Meta 高管表示,他們希望到 2026 年開始使用自己的芯片進行訓練,或者進行計算密集型過程,爲 AI 系統提供大量數據以“教”它如何執行。與推理芯片一樣,訓練芯片的目標是從推薦系統開始,然後將其用於聊天機器人 Meta AI 等生成式人工智能產品。

4)機會成本

AI時代下,英偉達和AMD兩大AI芯片玩家均已代際升級以季度爲單位推進,自研芯片的代次跨度很容易一上板就過時,落地即落後。

在 Llama 2-70B-LoRA 等平臺(8 GPU)微調工作負載中,Instinct MI325X的性能比 Instinct MI300X提升高達 30%(圖源:AMD)

現在AMD也補上了“可用的第二供應商”,6月份,AMD發佈了其首次提交MLPerf訓練的結果,AMD的訓練成績也已經很能打(MLPerf 上與英偉達可比/部分領先的負載出現了)。在 AMD MLPerf Training v5.0 測試中,Instinct MI325X平臺在微調 Llama 2-70B-LoRA(一種廣泛用於定製大型語言模型的工作負載)時,性能比 NVIDIA H200 平臺高出高達 8%。

Instinct MI325X平臺與NVIDIA H200的對比(圖源:AMD)

在這種情況下,再走一條第三條自研路,邊際價值更小、失敗成本更高。

Dojo 的叫停不等於“自研訓練芯片永無出路”。雲巨頭例外依然成立:Google TPU、AWS Trainium 能跑通,是因爲它們擁有超大、穩定的自用訓練需求 + 雲服務生態 + 算法/框架協同,能把“芯-機-雲-軟件”串成正循環。但對車企/應用公司而言,缺生態 + 缺供給鏈 + 節奏跟不上,機會成本纔是終極殺手。

英偉達贏在哪裏?

英偉達的勝利是系統性勝利。不只是 GPU 領先,而是從硅到機架到網絡到軟件的全棧交付能力:

硬件層:GPU + NVLink/NVSwitch + 高帶寬內存 + 機架級整機;

網絡層:InfiniBand 與 Spectrum-X 以太網兩套方案,覆蓋不同客戶偏好與成本模型;

軟件層:CUDA 體系與全棧庫/工具,保障“可用算力/周”;

交付層:從整櫃到整機房的“交鑰匙工程”,縮短客戶的Time-to-Train。

一個典型的案例:GB200 NVL72——72 張 Blackwell GPU + 36 顆 Grace CPU 的液冷整櫃,一個機櫃內構成 72-GPU 的 NVLink 統一域,對外就像一塊超大加速器;第五代 NVLink/ NVSwitch 還能把多個機櫃無阻塞拼合到 576 GPU。這不是“堆卡”,而是把互聯、內存、軟件、上電與運維做成可交付的“AI 工廠”

對於去自研AI訓練芯片的廠商而言,很多時候,他們並不是技術不可行,而是時間、資金與生態的綜合算術不合。當你在流血做“芯—板—機—集羣—軟件—網絡”的全棧集成時,英偉達已經把GPU+ NVLink/NVSwitch/Spectrum-X + CUDA/cuDNN + DGX/GB 系統一整套“AI 工廠”賣給了你的對手與合作伙伴,“買英偉達 = 立刻可用的AI 工廠”

英偉達在機架級產品(如 GB 系列)與網絡(Spectrum-X/InfiniBand 之外的以太網解法)上持續前移,把“可用算力/周”最大化。2024年10月28日,NVIDIA利用NVIDIA Spectrum-X以太網網絡平臺,實現了100,000個 NVIDIA Hopper GPU相連,這就是位於田納西州孟菲斯的 xAI Colossus 超級計算機集羣,其主要用於訓練馬斯克的Grok大模型。xAI和NVIDIA僅用122天就建成了配套設施和最先進的超級計算機,而這種規模的系統通常需要數月甚至數年的時間。從第一個機架滾到地面到訓練開始,整個過程僅用了 19 天。

英偉達的“系統 + 軟件 + 生態 + 交付能力”的複合護城河,正在把每一家“自研訓練芯片”的商業試驗拖回到現實。

對於英偉達而言,如今最大的變量和對手是AMD,AMD在性價比、特定工作負載(如微調)上持續追近,會壓縮自研路線的“理論窗口期”,但短期難撼動英偉達的系統與軟件領先。

接下來很長一段時間,“訓練自研,推理解耦”將成爲非雲巨頭的主流策略:訓練上公版平臺,推理做自家 SoC/ASIC,把能沉澱差異化的算力放在端側/產品內。

結語

特斯拉關掉 Dojo,不是輸給了一塊更強的芯片,而是輸給了一個更強的“產業系統”。 自研訓練芯片這條路,對絕大多數公司而言不具可複製性;而在“買卡 + 更快上線 + 產品側自控推理”的組合裏,英偉達再次贏下了時間、生態與現金流的三重賽點。

英偉達的再次勝利,是對整個行業的一次提醒:在 AI 基建時代,速度與生態,就是一切。

參考鏈接

【1】https://en.wikipedia.org/wiki/Tesla_Dojo?utm_source=chatgpt.com

【2】

https://www.reuters.com/technology/artificial-intelligence/meta-begins-testing-its-first-in-house-ai-training-chip-2025-03-11/?utm_source=chatgpt.com

【3】

https://www.bloomberg.com/news/articles/2025-08-07/tesla-disbands-dojo-supercomputer-team-in-blow-to-ai-effort

【4】

https://www.reuters.com/business/autos-transportation/tesla-shuts-down-dojo-supercomputer-team-reassigns-workers-amid-strategic-ai-2025-08-07/

【5】

https://www.amd.com/en/blogs/2025/amd-drives-ai-gains-with-mlperf-training-results.html?utm_source=chatgpt.com

*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅爲了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯繫半導體行業觀察。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10