計算的未來:英偉達王冠正搖搖欲墜

雷鋒網
昨天

作者丨朱可軒

編輯丨陳彩嫺

大模型浪潮來襲後,2023 年英偉達數據中心的 GPU 出貨量總計約 376 萬臺,較之上一年的 264 萬臺增長 100 多萬臺,併成爲歷史上規模增長最快的硬件公司。據估計,2025 年英偉達銷量將達到 650 萬至 700 萬塊 GPU。

目前情況來看,英偉達在 GPU 上的壟斷局面仍在持續,然而,其長期持久性(>6 年)的問題仍在被持續熱議。

當前,以谷歌微軟亞馬遜和 Meta 爲代表的海外巨頭正在積極整合 AI 需求,力爭成爲 NPU 的主要消費者,與此同時,他們也正在自研具有競爭力且高度可靠的芯片。

此外,計算需求的規模之大也觸及了資本支出、電力供應和基礎設施建設的極限,這正在推動行業轉向分佈式、垂直集成和協同優化的系統(芯片、機架、網絡、冷卻、基礎設施軟件、電源),而英偉達對此準備不足。

基於此,英偉達可能會失去有利地位,影響將波及 AI 堆棧的各個層面——從晶圓廠和半導體,到基礎設施、雲端、模型開發者和應用層。

巨頭加速芯片競爭

據英偉達方面介紹,2025 財年第四季度,其共交付了 110 億美元 Blackwell 芯片,Blackwell 主要賣給雲巨頭,這部分收入佔英偉達數據中心業務收入的半成左右。

不過,業內判斷,雲巨頭的份額將縮小,此外,由於過度購入並被迫虧損出售的小/短期GPU租賃廠商的利用率和投資回報率也均較低。

同時,由於規模化的前沿模型成本更低、性能和泛化能力更佳,尤其是在有效的 RAG 和廣泛可用的微調機制之下,大多數使用特定數據訓練專有模型的公司價值點尚不明確,這些長尾買家的需求並不穩固。

此外,部分小型獨立雲廠商如 Coreweave、Lambda、Crusoe、Runpod 等的未來不夠明晰,英偉達過往偉減少雲巨頭帶來的衝擊給予他們資金和 GPU 支持,但其仍舊缺乏產品多樣性、基礎設施和人才能力。

相比之下,雲巨頭的需求則增長迅速,外部開發者面臨着長期資源短缺,交付週期長達數月,而內部需求也加劇了這一趨勢,50-70% 的總計算量用於前沿訓練和重大成果(例如 Copilot、Gemini 和 Meta AI)的推理。

儘管各大雲服務提供商每年的資本支出都超過 200 億美元,但所有主要雲平臺都已滿負荷運轉。憑藉規模和基礎設施經驗,雲巨頭最有能力攤銷折舊和停機成本,同時提供他們也提供了很強的靈活性、安全性和可靠性,由此帶來高 AI 服務利潤率和客戶信任度。

當 GPU 支出數億時,英偉達在主導驅動並行 AI/ML 工作負載方面的平衡是可控的,如今,這種情況已不復存在。在一些超大規模數據中心,資本支出已超過毛利潤的 25%,GPU 佔基礎設施支出的一半,並佔數據中心 TCO 約 80%。此外,與軟件不同,推理是邊際成本結構的核心。

隨着未來訓練(50 億美元以上)支出受限,定製化和資本效率對於最大限度地擴展計算能力、訓練最佳模型和保持競爭力至關重要。

雖然替代英偉達並不容易,但巨頭們均在尋找機會點:

Meta 用 ASIC 取代了英偉達處理其一些最大的 DLRM 工作負載,谷歌也用同樣的方法處理了 YouTube 的關鍵視頻編碼工作負載。亞馬遜早在 2012 年就用 Nitro 取代了虛擬機管理程序,並用 Graviton 取代了大量英特爾 CPU。

雲巨頭以及 Marvell、Broadcom、Astera、Arista 和 AIchip 等主要設計合作伙伴已經投入了大量資金和工程人才,以削弱英偉達的壟斷。

以谷歌爲例,自 2013 年以來,他們一直在內部開發 TPU,雖然開發週期長達數年,但在預算、人才和架構都有限的情況下,TPU v1 從啓動到部署僅用了 15 個月。

並且歷屆 TPU 論文中與對應的 GPU 相比都有性能和能耗上的優勢。比如,TPU 第 4 代和英偉達的 A100 是同等製程的,在這一情況下,單看半導體利用率,TPU 的技術和架構及設計方案會比 GPU 有 3-5 倍的性能提升。

現階段,也有許多頭部廠商在採用 TPU,如 Anthropic 使用 TPU v5e 進行推理,蘋果則曾選擇在 TPU V4 和 V5p 的混合體上訓練其 SOTA 3B 參數本地模型。

發展至第六代,TPU Trillium 已經將能效和 HBM 容量提高一倍,峯值性能提高三倍以上。而谷歌也在迭代其軟件堆棧,由 TensorFlow 過渡到 JAX 用於處理編譯和低級部署優化,TPU 和 JAX 的組合幾乎完全取代了谷歌內部用於 AI 工作負載的英偉達 GPU。

本月初,谷歌又發佈了第七代 TPU“Ironwood”,作爲谷歌首款面向 AI 推理時代的 TPU,單芯片峯值算力可達4614 TFLOPs。據介紹,Ironwood 可擴展至 9216 片芯片集羣,性能是第六代 TPU Trillium 的 2 倍,並且能效較之於第一款 Cloud TPU 高出近 30 倍。

此外,HBM 帶寬也有所提升,單顆 Ironwood 芯片的內存帶寬達 7.2Tbps,是 Trillium 的4.5倍,Ironwood 芯片間互聯(ICI)帶寬則爲 1.2Tbps,是 Trillium 的1.5倍。

除谷歌外,亞馬遜也正在加速芯片開發,自 2015 年收購 Annapurna Labs 後,他們推出了第二代 Inferentia 和新的 Trainium 芯片,預計到 2026 年,支出將達到 25 億美金。第一代運行 Alexa 的後端,而第二代則專注於 LLM 價格和性能的優化。Anthropic 也已選擇了亞馬遜作爲主要算力供應商,並與其一同研發下一代芯片。

微軟則推出了自研 AI 芯片 Maia 100 芯片和相關的 Cobalt 100 CPU。在軟件方面,微軟推出了兼容 Pytorch 的編譯器 Maia SDK,依靠 Open AI 的 Triton 框架來取代 CUDA。另外,還推出了一種新的數據格式(MX v1.0)以使跨提供商的量化標準化,這將使自研和第三方芯片無縫互操作,爲開發者提供完整的可移植性。

Meta 也在佈局 ASIC,早期,Meta 芯片主要爲 Instagram 和 Reels 提供 DLRM,隨着第二代 MTIA 芯片發佈和支持定製軟件堆棧,其已開始在 Facebook 和 Instagram 的新聞推送推薦系統中使用推理芯片。

Meta 還在合成數據生成方面擴大芯片使用,此前,Llama 3.1 就使用了這些芯片進行監督微調和數據提煉,以預訓練較小的模型。上月,據外媒報道,Meta 已經在小規模部署測試其首款用於 AI 訓練的自研芯片。

當前,AI 的工作負載偏向於訓練,即使在微軟,訓練也約佔算力需求的六成,理論上來講,由於訓練受限於內存且對空間限制較爲敏感,會限制 ASIC 的可行性,但隨着重心由訓練轉向推理,英偉達的壓力也正在增大。

業內分析認爲,在許多情況下(尤其是對於中型模型),上一代 A100 的性價比都高於 H100,而 AMD 也正在成爲更具競爭力的替代品,甚至從長遠來看,尤其是對於小模型而言,基於 CPU 的推理或爲最佳選擇。

分佈式帶來的挑戰

當然,也有人會反駁稱,就單芯片性能而言,英偉達 B100 的性能相當於 3 個 Trillium TPU,但有觀點認爲,單芯片性能並不重要:雲巨頭能夠垂直整合並利用其規模和專業打造總體上更經濟、性能更高的分佈式系統,對於英偉達而言,這將會是難以競爭或適應的結構性趨勢。

隨着登納德縮放定律(Dennard scaling)的失效和 SRAM 邏輯尺寸的縮小,晶體管小型化的回報下降,新節點成本卻一路飆升,硬件增益(密度、性能和成本)將越來越多地來自系統技術的協同優化,以及互聯、芯片、冷卻、電源、機架和數據中心的智能設計。

這在很大程度上得益於先進的封裝技術(例如芯片、增加的封裝內 HBM)和更大的基板。而更大的增益則來自於數據中心運營商、供應商和系統集成商有意識地根據超大規模需求定製設計的努力。

以微軟的數據中心設計爲例,他們規劃了自己的電信光纖網絡,並推出新的 ColorZ 可插拔光收發器 + DSP,以支持長距離(<80 公里)數據傳輸,通過連接數據中心有效提高峯值集羣性能。

爲了支持海量數據流,微軟計劃開發用於交換機和收發器的封裝內、並最終實現芯片光學器件。目前搭載 Maia 芯片的機架擁有更高的垂直整合度,通過使用定製配電、高帶寬以太網協議和專用的機架內“sidekicks”來實現閉環液體冷卻,且在提高芯片密度的同時,降低了互連要求和成本。

重要的是,這些服務器集成到現有的微軟數據中心基礎設施後,可以在現有空間內實現動態功耗優化、更輕鬆的管理以及更大的計算能力,這是擴展訓練運行的必要條件。

谷歌所見略同,他們放棄了大型芯片,轉而採用體積更小、成本更低、且具有深度互連的 ASIC 集羣。在機架層面,所有 TPU 都具有相同的配置,無需支持不同的環境。此外,它們在機架中集成的服務器主板也更少,這提高了機架密度,並進一步降低了硬件部署的複雜性。

並且谷歌使用 ICI 而非 NVLink,這讓他們能通過無源銅纜,以非常低的成本連接 64 個 TPU 的切片。

與英偉達的不同之處還在於,谷歌在數據中心及其他方面均進行了大量的定製化:TPU 設計爲在 4096 個芯片的艙內運行,使用定製光學開關(Apollo)代替普通的電子分組交換機,與英偉達相比,大大降低了功耗和停機時間。

在整個數據中心中,TPU 採用環形網絡拓撲結構而非 CLOS 架構,改善了延遲和局部性,並結合專有的雲網絡硬件和軟件 (Jupiter)實現跨數據中心組織大規模 TPU 集羣,繼而實現比競爭對手低近 30% 的性能/TCO(主要得益於芯片成本、停機時間和基礎設施支出的降低)。

更重要的是,結合更小的批量大小、數據驗證技巧和高級分區,這意味着谷歌可以在多個連接的數據中心訓練像 Gemini Pro 1.5 這樣的前沿模型。這最大限度地降低了未來訓練基礎設施的功耗和尺寸要求,並且在提高了硬件模塊化的同時,延長了舊芯片/設備的使用壽命。

基礎設施正在變得愈發分佈式,以 Meta 爲例,Llama 3 的訓練就並非集中於單一數據中心。值得一提的是,由於需要去在包括 AWS、Oracle 等雲上做訓練,所以 Meta 也正在通過與 HammerSpace 合作將多雲多數據中心的數據完全統一起來。

微軟也正在爲 OpenAI 連接遍佈全國的集羣。當前,海外巨頭都在積極探索實現真正的異步分佈式訓練。

分佈式基礎設施是繼續擴展和計算新 OOM 的唯一途徑。目前,算力仍舊是前沿模型發展的最大制約因素,而多數據中心訓練允許使用規模較小、互聯互通的數據中心,這不僅降本而且提高了吞吐量。

同時,也加速了基礎設施的建設:小型數據中心更容易進行設計、獲得土地使用權/許可證、環境影響評估 (EIA) 審批、供應商/總承包商 (GC) 以及建設輸電和電壓變壓器;互聯集羣則可以幫助克服電網滿負荷運行的電力限制,單個數據中心很快就會達到規模極限(例如,10GW 集羣約佔美國電力的 1%)。

互聯園區和跨區域聯網集羣能夠擺脫單一端點,當前,海外還僅限於使用以太網(<40公里)區域內的數據中心,但也正在計劃利用電信光纖,連接遠至約 500 公里外的數據中心。

如微軟已開始深入研究,並已與 Lumen 等光纖網絡提供商斥資超過 100 億美元。雖然還需要幾年時間才能部署,但將提供 1-5Pbit 的帶寬和 <1 秒的權重交換,足以實現多區域訓練。

這些區域分佈式訓練系統將持續擴展併成爲常態,從而實現更經濟、更快速的基礎設施建設,同時推動單次運行(x-xxGW)的峯值功率/計算能力。

不過,雖然分佈式系統爲非傳統但資金雄厚的參與者創造了一些機會,但基礎設施專業知識至關重要,巨頭必須不斷擴展以訓練出更優秀的模型。長期來看,關鍵區別在於訓練將在 x00MW-xGW 數據中心的“小型”聯網園區中進行,而不是在 xxGW 級的單體數據中心中進行。

基於前述趨勢,業內分析認爲,英偉達將很難在性能或成本上競爭,其既無法與雲深度集成,也無法定製硬件,除非他們發展出規模較小的客戶,英偉達本身並不適合服務於跨集羣或百億億次級的情況。

舉例來看,英偉達的 Infiniband 網絡基礎設施並非旨在支持 10 萬以上的 GPU 集羣,根據設計,每個 GPU 僅連接到單個 NIC(Network Interface Card,網絡接口卡),並且每個數據包都必須以相同的順序傳輸。

由於模型規模龐大且權重分佈不均,單個 NIC、GPU 或光模塊故障就可能導致整臺服務器癱瘓,迫使數據重新傳輸,而隨着新機架的出現,節點規模也隨之增大,這種情況會更加嚴重,即使頻繁設置檢查點,也會將 MFU 拖累數個百分點。

此外,儘管英偉達正在推動向 800 Gbps 網絡的過渡,但他們面對數據通信領域由超大規模引領的大規模轉型表現出措手不及,未來會越來越多地使用可插拔 ZR 光模塊來支持連接數據中心所需的超高帶寬光纖連接,還將獲得新的 DSP 和支持電信硬件(放大器、多路複用器、轉發器等)。

這會破壞英偉達的網絡堆棧,並且使 Coherent、Lumentum、Inphi、Cisco 和 Nokia 等供應商受益。

值得一提的是,英偉達還面臨着一個最緊迫的問題——容錯,在訓練過程中處理多個故障點時,容錯能力是確保可靠性和高利用率的關鍵。規模較小的客戶依賴於開源框架,但對於規模非常大的集羣,英偉達的網絡設計和硬件選擇並未提供內置保護。

如今,許多巨頭依賴於內部解決方案:谷歌的 Pathways 比其他解決方案在邊緣情況和故障類型方面表現更優,同時能夠靈活處理同步和異步數據流。Pathways 還擅長檢測和修復幾乎無法察覺的、繞過 ECC 的 GPU 內存問題,而英偉達的診斷工具 (DCGM) 可靠性要低得多。

英偉達也難以提供具有競爭力的分區和集羣管理軟件,其 BaseCommand 系統(基於 Kubernetes 構建)旨在實現跨平臺,併兼容異構系統。

然而,其他廠商擁有更完善的專有集成解決方案,如谷歌的 Borg和微軟的 Singularity 能夠更好地處理規模化的虛擬機/容器管理、透明遷移以及 GPU 工作負載的調度/管理。谷歌甚至還通過 MegaScaler 在單個園區內外的 TPU Pod 之間同步劃分工作負載。

較之英偉達,雲巨頭在半導體、基礎設施和模型層面的垂直整合,能夠提升其系統級理解、可觀察性、協同優化和故障分析能力。

當前英偉達也已在通過 Blackwell 和 GB200 解決結構性問題。在硬件層面,安裝了機架寬的銅纜連接背板,並採用液冷技術來提高密度、能效和總體擁有成本 (TCO),並推出了基於以太網的數據中心級網絡解決方案 Spectrum-X。

在軟件方面,英偉達正在積極更新 DCGM 軟件,並推出專用的可靠性、可用性和可維護性 (RAS) 引擎,旨在通過傳感器級芯片數據預先向運營商發出故障警報,從而幫助緩解持續存在的 NIC/Infiniband 故障。

然而,綜合來看,這還不夠。

如前文所述,幾乎所有關鍵基礎設施軟件的內部都存在更好的版本,超大規模數據中心也早已實現了規模化和垂直整合。

以冷卻爲例,早在英偉達強制使用液冷前,谷歌於 2018 年就通過 TPU v3 部署強制使用液冷,谷歌的 TPU v3 部署每千瓦時用水量比微軟的英偉達數據中心少 2 倍,PUE(電源使用效率)爲 1.1,而微軟的 PUE 則>1.4。這意味着英偉達在每個超大規模數據中心損失了 30% 的有效電力和 50% 的佔地面積。

英偉達意識到了這一點,並通過佈局 DGX Cloud、NGC 等努力提升價值鏈,也前瞻性收購了 Mellanox,但未來正朝着大型園區和雲的方向發展,而英偉達卻主要在數據中心層面進行優化,其正面臨着前所未有的長期挑戰。雷峯網雷峯網(公衆號:雷峯網)

參考鏈接:

https://mohitdagarwal.substack.com/p/from-dominance-to-dilemma-nvidia

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10