萬字解讀AMD的CDNA 4 架構

半導體行業觀察
06-18

CDNA 4 是 AMD 最新的面向計算的 GPU 架構,在 CDNA 3 的基礎上進行了適度更新。CDNA 4 主要致力於提升 AMD 在低精度數據類型下的矩陣乘法性能。這些運算對於機器學習工作負載至關重要,因爲機器學習工作負載通常可以在極低精度類型下保持可接受的準確度。同時,CDNA 4 致力於保持 AMD 在更廣泛應用的矢量運算方面的領先地位。

爲此,CDNA 4 在很大程度上採用了與 CDNA 3 相同的系統級架構。它採用大規模芯片組設置,與 AMD 在 CPU 產品中成功運用芯片組的做法類似。加速器計算芯片(XCD)包含 CDNA 計算單元,其作用類似於 AMD CPU 產品上的核心複合芯片 (CCD)。八個 XCD 位於四個基礎芯片之上,這些基礎芯片實現了 256 MB 的內存側緩存。AMD 的 Infinity Fabric 技術可在整個系統中提供一致的內存訪問,並可跨越多個芯片。

與基於 CDNA 3 的 MI300X 相比,搭載 CDNA 4 的 MI355X 略微減少了每個 XCD 的 CU 數量,並禁用了更多 CU 以維持良率。由此產生的 GPU 寬度略小,但更高的時鐘速度彌補了大部分差距。與 Nvidia 的 B200 相比,MI355X 和 MI300 都是更大的 GPU,擁有更多基本構建模塊。Nvidia 的 B200 確實採用了多芯片策略,打破了長期以來使用單片設計的傳統。然而,AMD 的 chiplet 設置更加激進,並試圖在具有大型計算 GPU 的 CPU 設計中複製其擴展成功。

計算單元變化

CDNA 3 的矢量吞吐量優勢遠超 Nvidia 的 H100,但在機器學習工作負載方面則更爲複雜。得益於成熟的軟件生態系統以及對矩陣乘法吞吐量(張量核心)的高度關注,Nvidia 通常能夠接近名義上規模更大的 MI300X。當然,如果 H100 的顯存耗盡,AMD 仍然保持着巨大的優勢,但 AMD 肯定還有改進的空間。

CDNA 4 重新平衡了其執行單元,使其更專注於低精度數據類型的矩陣乘法,而這正是機器學習工作負載所需的。在許多情況下,每 CU 的矩陣吞吐量翻倍,CDNA 4 CU 在 FP6 中與 Nvidia 的 B200 SM 匹敵。不過,在其他方面,Nvidia 仍然更加註重低精度矩陣吞吐量。在 16 位和 8 位數據類型範圍內,B200 SM 的每時鐘吞吐量是 CDNA 4 CU 的兩倍。AMD 繼續依靠擁有更大、更高時鐘頻率的 GPU 來保持整體吞吐量領先地位。

憑藉矢量運算和更高精度的數據類型,AMD 延續了 MI300X 的巨大優勢。每個 CDNA 4 CU 繼續擁有 128 條 FP32 通道,計算 FMA 運算時每週期可提供 256 FLOPS 的計算能力。MI355X 較低的 CU 數量確實導致矢量性能與 MI300X 相比略有下降。但與 Nvidia 的 Blackwell 相比,AMD 更高的核心數量和更高的時鐘速度使其在矢量吞吐量方面保持了巨大的領先優勢。因此,AMD 的 CDNA 產品線在高性能計算工作負載方面仍然表現不俗。

Nvidia 專注於機器學習和矩陣運算,儘管運行頻率較低的 SM 數量較少,但 Nvidia 在該領域仍保持着極強的競爭力。AMD 的巨型 GPU MI355X 在許多數據類型上都處於領先地位,但 AMD 與 Nvidia 最強 GPU 之間的差距遠不及矢量計算那麼大。

更大的 LDS

GPU 提供了一個軟件管理的暫存器,用於本地一組線程(通常是在同一核心上運行的線程)。AMD GPU 使用本地數據共享 (LDS) 來實現此目的。Nvidia 將其類似的結構稱爲共享內存。CDNA 3 擁有一個 64 KB 的 LDS,延續了 AMD GCN GPU 早在 2012 年就採用的類似設計。該 LDS 擁有 32 個 2 KB 的存儲體,每個存儲體寬度爲 32 位,在沒有存儲體衝突的情況下,每個週期最多可提供 128 個字節。

CDNA 4 將 LDS 容量提升至 160 KB,並將讀取帶寬翻倍至每時鐘 256 字節。GPU 原生運行於 32 位元素,因此可以合理地假設 AMD 通過增加存儲體數量來翻倍帶寬。如果是這樣,那麼每個存儲體現在可能擁有 2.5 KB 的容量。另一種可能性是將存儲體數量增加到 80 個,同時將存儲體大小保持在 2 KB,但這不太可能,因爲這會使存儲體選擇變得複雜。64 個存儲體的 LDS 自然可以支持 64 位寬的波前訪問,每個存儲體服務於一個通道。此外,2 的冪次方個存儲體數量允許通過地址位子集輕鬆選擇存儲體。

更大的 LDS 空間允許軟件將更多數據保存在靠近執行單元的位置。內核可以分配更多 LDS 容量,而不必擔心 LDS 容量限制導致佔用率降低。例如,分配 16 KB LDS 的內核可以在 CDNA 3 CU 上運行 4 個工作組。在 CDNA 4 CU 上,這個數字將增加到 10 個工作組。

軟件必須顯式地將數據移入 LDS 才能利用它,與使用硬件管理的緩存相比,這可能會增加開銷。CDNA 3 具有 GLOBAL_LOAD_LDS 指令,允許內核將數據複製到 LDS 中,而無需經過向量寄存器文件。CDNA 4 增強了 GLOBAL_LOAD_LDS 指令,使其支持每通道最多 128 位的移動,而 CDNA 3 上每通道僅支持 32 位。也就是說,GLOBAL_LOAD_LDS 指令可以接受 1、2、4、12 或 16 個 DWORDS(32 位元素)的大小,而 CDNA 3 上只能接受 1、2 或 4 個 DWORDS 。

CDNA 4 還引入了讀取轉置 LDS 指令。矩陣乘法涉及將一個矩陣中某一行的元素與另一個矩陣中相應列的元素相乘。這通常會對至少一個矩陣造成低效的內存訪問模式,具體取決於數據是按行主序還是列主序排列。轉置矩陣可以將笨拙的行列操作轉換爲更自然的行行操作。對於 AMD 的架構來說,在 LDS 上處理轉置也很自然,因爲 LDS 已經有一個交叉開關,可以將存儲體輸出映射到通道(swizzle)。

即使 LDS 容量增加了,AMD 的 GPU 核心中的數據存儲空間仍然比 Nvidia 要小。Blackwell 的 SM 有一個 256 KB 的存儲塊,既可用作 L1 緩存,又可用作共享內存。最多可分配 228 KB 用作共享內存。如果分配 164 KB 共享內存,接近 AMD 的 160 KB LDS,Nvidia 仍有 92 KB 可用於 L1 緩存。CDNA 4 與 CDNA 3 一樣,每個 CU 都有 32 KB L1 矢量緩存。因此,Blackwell SM 可以擁有更多的軟件管理存儲,同時仍具有比 CDNA 4 CU 更大的 L1 緩存。當然,AMD 更高的 CU 數量意味着整個 GPU 有 40 MB 的 LDS 容量,而 Nvidia 在 B200 上只有約 33 MB 的共享內存,最大共享內存分配爲 228 KB。

系統架構

爲了滿足海量計算單元陣列的需求,MI355X 在很大程度上採用了與 MI300X 相同的系統級架構。不過,MI355X 確實有一些增強功能。二級緩存可以“回寫髒數據並保留行副本”。“髒”是指已在回寫緩存中修改,但尚未傳播到內存子系統較低級別的數據。當髒行被清除以騰出空間容納新數據時,其內容將被寫回到下一級緩存;如果是最後一級緩存,則寫回到 DRAM。

AMD 可能正在尋求在內存子系統負載較低時適時使用寫入帶寬,以平滑由緩存填充請求和寫回操作引起的帶寬需求峯值。或者,如果寫入的數據可能被系統中的其他線程讀取,但預計短期內不會再次被修改,AMD 可能會採取一些特殊措施,讓 L2 緩存將一條數據線轉換爲乾淨狀態。

MI355X 的 DRAM 子系統已升級爲使用 HBM3E,相比其前代產品,帶寬和容量均有顯著提升。這也使 AMD 保持了對 Nvidia 競爭對手的領先優勢。Nvidia 的 B200 也使用了 HBM3E,後者似乎也擁有八個 HBM3E 堆棧。然而,B200 的最大容量爲 180 GB,帶寬爲 7.7 TB/s,而 MI355X 的最大容量爲 288 GB,帶寬爲 8 TB/s。當 H100 的 DRAM 容量耗盡時,MI300X 可能比 Nvidia 的舊款 H100 擁有顯著優勢,而 AMD 很可能希望保持這一優勢。

HBM3E 帶來的更高帶寬也有助於提升 MI355X 的計算帶寬比。MI300X 每 FP32 FLOP 的 DRAM 帶寬約爲 0.03 字節,而 MI355X 則提升至 0.05 字節。相比之下,Blackwell 每 FP32 FLOP 的 DRAM 帶寬約爲 0.10 字節。雖然 Nvidia 增加了 Blackwell 的末級緩存容量,但 AMD 仍然更依賴大緩存,而 Nvidia 則更依賴 DRAM 帶寬。

最後的話

CDNA 2 和 CDNA 3 與前代產品相比進行了徹底的改變。CDNA 4 的變化則更爲平淡。與從 Zen 3 到 Zen 4 類似,MI355X 保留了類似的芯片組排列,但計算和 IO 芯片組被替換爲改進版本。AMD 並沒有改變其總體戰略,而是專注於優化 CDNA 3。更少、更高時鐘頻率的計算單元更易於利用,而更高的內存帶寬也有助於提高利用率。更高的矩陣乘法吞吐量也有助於 AMD 在機器學習工作負載方面與 Nvidia 展開競爭。

在某些方面,AMD 在這一代 GPU 上的做法與 Nvidia 頗爲相似。從矢量執行的角度來看,Blackwell SM 與 Hopper 基本相同,改進主要集中在矩陣方面。Nvidia 可能認爲他們找到了制勝法寶,因爲他們過去幾代 GPU 無疑都取得了成功。AMD 的 CDNA 3 或許也找到了制勝法寶。MI300A 是 MI300X 的 iGPU 兄弟,它爲 TOP500 六月榜單中排名最高的超級計算機提供動力。4在成功的基礎上繼續發展可能是一種安全且回報豐厚的策略,而 CDNA 4 或許正是如此。

AMD CDNA 4 架構深度解讀

GPU 和加速計算徹底改變了數據中心的格局。加速計算最初在科學界被廣泛接受,用於補充現有的通用 CPU,以應對地震分析和分子動力學等特定工作負載。在此基礎上,加速器不斷發展,支持越來越通用的編程語言(例如 C++ 和 Python)以及更多樣化的應用。機器學習(尤其是在計算機視覺領域)很早就利用了新的加速器,並催生了深度學習領域,該領域明確依賴 GPU 等加速器來訓練和部署神經網絡。

在經典科學計算和新興機器學習及人工智能工作負載之間,GPU 的設計日益注重規模化運行,爲全球最大的超級計算機提供動力。基於 Transformer 的神經網絡的發現拓展了 GPU 的視野,並最終推動了生成式人工智能的爆炸式增長。生成式人工智能是迄今爲止要求最高的應用領域之一,其應用範圍遠遠超出了科學計算,涵蓋了消費者和企業用戶。

對計算能力和效率的需求如此巨大,以至於架構師不得不竭盡全力,不斷重新審視計算領域的基本假設。最初,加速器採用了新的內存模型,但保留了熟悉的數據類型。現在,浮點數值表示法與新算法一起不斷發展,以降低精度,從而提高性能、內存佔用和能效。與此同時,GPU 在集成度方面也不斷突破極限——首先採用先進的封裝技術將 HBM 與加速器緊密耦合,現在則使用更先進的封裝技術,擺脫單片硅片實現。

AMD 一直走在這場革命的前沿,爲 GPU 開發新穎的軟件和系統架構,以實現更強大的性能和功能。在軟件方面,AMD CDNA 2 架構通過緩存一致性統一了 CPU 和 GPU 計算,爲軟件生態系統釋放了新的應用和機遇。 AMD CDNA 3 架構徹底改變了加速器的構建方式,採用先進的封裝技術,實現了異構集成,並將處理器重新劃分到十幾個不同的芯片組上。

如下圖 1 所示,AMD CDNA 4 架構建立在先前 3D 封裝技術的基礎上,並在異構封裝中重新平衡了處理器的元素。每個 AMD Instinct MI350 系列 GPU 集成了 8 個垂直堆疊的加速器複合芯片 (XCD) 和 2 個包含系統基礎架構的 I/O 芯片 (IOD),並與 AMD 的 AMD Infinity Fabric 封裝技術緊密相連,並連接到 8 個 12-Hi 高帶寬內存堆棧 (HBM3E)。XCD 結合了最新的製程技術並支持新的降低精度數據類型,從而提升了 AI 的吞吐量和效率,而重新劃分的 IOD 則有助於改善通信和內存流量的延遲和效率。外部方面,AMD Instinct MI350系列產品採用Infinity Fabric技術,在單個節點上直接連接8個GPU。

這種設計提供了多功能性,可快速開發和部署基於 AMD CDNA 4 架構的產品系列,以滿足客戶多樣化的需求——兼顧易用性和極致性能。AMD Instinct MI350 系列包含風冷 (AC) Instinct MI350X GPU,其 1000W 功率採用 OCP UBB8 基板,該基板旨在與上一代 AMD Instinct™ MI325X 平臺和系統直接兼容,從而快速部署到現有生態系統中並快速實現價值。爲了在無與倫比的密度下實現更高的性能和效率,AMD Instinct MI355X GPU (1400W) 提供直接液冷 (DLC) 平臺,同樣採用 UBB8 基板,適用於支持更高功率和冷卻能力的基礎設施。

與上一代 AMD Instinct MI325X GPU 相比,AMD Instinct MI355X GPU 將現有機器學習專用 16 位和 8 位矩陣數據類型的峯值吞吐量幾乎提高了一倍,並引入了對其他低精度數值格式的支持,將 FP6/FP4 的 10TFLOP/s 理論峯值與 MI325X 的 FP8 的 2.61 PFLOPS 理論峯值性能相比,性能提高了 3.85 倍。MI350-005 MI355X 還將內存容量提升至 288GB HBM3E,帶寬高達 8TB/s,通信帶寬超過 1TB/s。 CDNA 4 架構旨在與開源驅動的 ROCm 軟件生態系統協同工作,並通過 Kubernetes® 提供卓越的開箱即用科學計算和企業編排功能,並支持領先的 AI 訓練和推理堆棧以及對流行生成式 AI 模型的 Day 0 支持。

Chiplet架構

AMD CDNA 3 架構是一次範式轉變——它採用了基於芯片組(chiplet-based)的現代方法,充分利用了異構集成技術,並將衆多專用芯片組與 Infinity Fabric 架構整合到一個高度優化的計算平臺中。與過去幾十年佔據主導地位的單片架構相比,這是對芯片設計和架構的一次根本性反思,有望爲未來數代產品帶來性能和可擴展性。

CDNA 4 架構繼承了這一革命性基礎,並通過精心優化每個組件來提供最佳性能、效率和可製造性,充分展現了這種靈活策略的優勢。八個計算芯片組(XCD)受益於最新的製程工藝,並採用臺積電 (TSMC) 尖端的 N3P 製程技術實現,其芯片尺寸和佔位面積與上一代產品相似,以實現最佳性能和效率。 IOD 中的內存和通信功能主要由大型 AMD Infinity Cache和互連芯片承擔,而這些芯片無法有效擴展,無法充分利用最新工藝技術提供的性能。利用異構架構中的獨立擴展功能,這些功能保留在臺積電高效且經濟實惠的 N6 工藝上,但重新平衡了兩個大型 IOD(而非四個)的部署,從而優化了性能和能效,同時保持了有利的可製造性。

AMD CDNA 4 計算

AMD CDNA 4 架構凸顯了基於 Chiplet 的異構計算平臺構建方法的一大優勢——每個 Chiplet 都可以使用合適的製程技術,從而實現更高效的演進。加速器複合芯片 (XCD) 包含處理器的計算部分以及對性能最爲敏感的緩存層級的最低層。AMD CDNA 4 XCD 採用臺積電最新的 N3P 製程技術,充分利用了相比上一代 N5 製程更高的邏輯密度和性能。

如圖 2 所示,AMD CDNA 4 架構重新平衡了 XCD,通過提升每個計算單元 (CU) 的功能來提升性能,尤其適用於要求最苛刻的 AI 工作負載——實現對新數據類型的硬件支持,並顯著提高矢量和矩陣工作負載的計算吞吐量和效率,如下表 1 所示。

AMD CDNA 4 XCD 中的 CU 數量與上一代相比略有減少,但每個 CU 通過一系列新功能的組合變得更加強大。因此,調度程序、硬件隊列和將計算着色器工作組發送到計算單元 (CU) 的異步計算引擎 (ACE) 等全局資源僅需進行少量增強。

每個 XCD 包含 36 個 AMD CDNA 4 計算單元,這些計算單元被組織成四個陣列,每個陣列包含 9 個 CU,其中 32 個處於活動狀態,剩下 4 個可能處於禁用狀態,以實現高產量和高效的工作頻率。與上一代產品一樣,L2 緩存會將 XCD 中的所有流量合併,然後散佈到連接系統其餘部分的 Infinity Fabric 架構。該處理器跨越 8 個 XCD,最多可支持 256 個計算單元——略少於上一代產品,但在某些情況下,與 AMD Instinct MI300 系列 GPU 相比,計算吞吐量翻了一番。

AMD CNDA 4 計算單元架構

如下圖 3 所示,AMD CDNA 4 架構計算單元 (CU) 實例化了完整的處理器流水線,能夠高度線程化地並行執行標量、矢量和矩陣指令以及數據類型,並擁有包含 L1 數據緩存和顯式尋址本地數據共享的內存流水線。AMD CDNA 4 CU 相較於上一代產品略有增強,增強了內存層次結構,並着重於採用新的低精度數值格式,並提升了對機器學習應用至關重要的矢量和矩陣吞吐量,最高可達 3.9 倍 (FP4/FP8)。

由於大多數工作負載將跨越多個計算單元 (CU),因此兩個相鄰的計算單元共享 64KB、8 路組相聯指令緩存,從而有效利用緩存和區域。

AMD CDNA 4 CU 中,矩陣核心是本世代性能提升中最重要的部分,這些核心專注於 AI 和機器學習,不僅增加了對新標準化數值格式的硬件支持,也增加了現有數據類型的原始計算資源。低精度數值格式是提升 AI 性能最有效、最強大的技術之一。較小的數據類型可以提高計算吞吐量,從而更有效地利用有限的數據路徑——本質上,在功耗略有提升的情況下,顯著提升了計算能力。此外,較小的數據也能更好地利用整個處理器的寶貴資源,例如內存或緩存帶寬和容量,通常能夠顯著提高能效。

在機器學習的早期,單精度浮點 (FP32) 數據很常見,但在過去十年中,人工智能社區採用了 FP16、BF16、INT8 和 FP8 格式來提升性能和效率。這些更緊湊的浮點格式用更少的位數表示張量中的每個數據元素,併爲每個張量添加了一個縮放因子,以捕獲完整的動態範圍並避免下溢和上溢。AMD CDNA 3 計算單元引入了對 OCP 8 位浮點規範中描述的兩種 FP8 數據類型變體的支持:一種是用於訓練的 2 位尾數和 5 位指數 (E5M2),另一種是用於推理的 3 位尾數和 4 位指數 (E4M3)。

最近,業界圍繞 OCP MX 標準中體現的微縮放概念展開了聯合,將降低的精度提升到了一個新的水平。微縮放背後的核心概念是讓硬件支持一個在張量內的數據元素塊(通常爲 32 個)之間共享的比例因子,而不是整個張量只使用一個比例因子。與傳統的 FP8 相比,微縮放的 MXFP8 格式具有更細的粒度,這使得在 AI 工作負載中,可以在更廣泛的張量上使用精度更低的格式。此外,微縮放還爲更高的壓縮率開闢了道路,並引入了諸如 MXFP6(包含 E3M2 和 E2M3 變體)和 MXFP4(指定 E2M1)等格式。下圖 4 顯示了最新 AMD CDNA 4 架構支持的部分數值數據格式。

AMD CDNA 4 架構最顯著的改進之一在於矩陣核心。順應行業降低精度的趨勢,AMD CDNA 4 計算單元 (CU) 引入了對行業標準微擴展格式(包括 MXFP8、MXFP6 和 MXFP4)的指令和硬件支持。

此外,N3P 工藝提供的額外資源用於將 16 位及更小緊湊數據類型的執行資源增加一倍,如下表 1 所示。這兩項改進的結合意味着每個 CU 在單個週期內可執行的運算數量幾乎增加了四倍,如下圖所示,與上一代 (FP4/FP8) 相比,機器學習能力大幅提升。上一代產品完全硬件支持專有的 TF32 數字格式。

經過與客戶和生態系統的廣泛討論,該格式已從硬件中移除,並通過使用 BF16 數據類型的軟件仿真來支持。最終結果是,對於低精度 AI 數值數據格式,AMD CDNA 4 架構的計算吞吐量翻了一番,同時大多數模型的精度保持不變。

矩陣核心的增強功能提升了人工智能工作負載中常見的矩陣運算的計算吞吐量——這對於構成現代大型語言模型 (LLM) 基礎的 Transformer 尤爲重要。人工智能應用通常將矩陣運算的輸出饋送到向量激活運算。對於卷積神經網絡,通常使用修正線性單元 (ReLU);而在基於 Transformer 的網絡中,softmax 是最常見的激活函數。爲了與矩陣核心的大幅提升保持一致,超越率也提升了 2 倍,以輔助注意力加速,從而確保均衡的性能曲線。最後,AMD CDNA 4 計算單元還引入了多種數據轉換指令,以確保新格式的易用性。

雖然矩陣核心的設計備受關注,但 AMD CDNA 4 架構中的內存層次結構也得到了增強,尤其注重本地數據共享 (LDS) 以及針對基於 Transformer 的神經網絡的優化。 AMD CDNA 3 架構及前幾代架構中的邏輯數據結構 (LDS) 採用直接尋址結構,包含 32 個存儲體,每個存儲體包含 512 個 32 位數據條目,總計 64KB 數據。每個存儲體可以讀寫 32 位值,LDS 集成了衝突檢測和調度邏輯、複雜的交叉開關和混合單元以及原子執行單元。AMD CDNA 4 架構中的 LDS 大小爲 160KB,通過增加存儲體數量,容量增加了一倍以上,讀取帶寬也翻倍至每時鐘 256 字節。由於數據複用程度較高,額外的容量和帶寬對於提高計算單元 (CU) 中用於矩陣乘法例程的矢量和矩陣執行資源的利用率至關重要。AMD CDNA 4 LDS 也比之前的設計更高效,支持直接從一級數據緩存加載數據,從而減少矢量寄存器的使用和延遲。這兩項 LDS 優化對於矩陣乘法尤其重要,而矩陣乘法是現代基於 Transformer 的神經網絡的支柱。

每個 AMD CDNA 4 計算單元 (CU) 中的 L1 矢量數據緩存與上一代基本相同,擁有 128B 緩存行和 32KB 容量,並支持 64 路組相聯。此外,還有一個共享的 4MB、16 路組相聯 L2 緩存,爲 XCD 中的所有計算單元 (CU) 提供服務。L2 緩存擁有 16 個並行通道,每個通道每個週期能夠執行完整的 128B 緩存行讀取和 64B 寫入操作。完全一致的 L2 緩存旨在通過寫回和寫入分配策略,減少從 XCD 溢出並跨越 Infinity Fabric 到達系統其他部分的流量。AMD CDNA 4 架構中的 L2 緩存還進行了一些額外的一致性優化。它現在可以緩存來自 DRAM 的非相干數據,並且可以寫回髒數據並保留該行的副本。

AMD CDNA 4 架構內存

AMD CDNA 4 架構的內存層級始於計算單元 (CU),二級緩存 (L2) 充當整個 XCD 通往連接處理器的 AMD Infinity Fabric 網絡的網關。內存層級的共享部分(包括 AMD Infinity Cache™ 和內存控制器)位於垂直堆疊在 XCD 下方的 IOD 中。AMD CDNA 3 架構中引入的基於芯片組的異構方法使得每個芯片組的硅片實現能夠獨立演進,從而最大限度地提高性能,同時提供卓越的可製造性。在 AMD CDNA 4 架構中,XCD 利用最新制程技術的密度來提升處理器的計算性能,這很容易證明增加的成本是合理的。然而,IOD 主要包含諸如 SRAM 和 I/O 之類的組件,這些組件無法從更先進的製程中獲益,也無法證明其成本是合理的。

IOD 採用臺積電 N6 工藝實現。如上圖 5 所示,AMD CDNA 4 架構採用兩個較大的 IOD 並直接連接,而非上一代的四個較小的 IOD。這簡化了封裝內的 Infinity Fabric 網絡,從而降低了許多通信模式的延遲並降低了功耗,從而爲處理器的其他部分釋放了更多空間。IOD 之間更簡單的直接連接比 AMD CDNA 3 架構的速度提高了約 14%,從而提升了許多通信模式的性能。

AMD CDNA 4 架構中的 Infinity Cache 在組織結構上基本保持不變。它仍然充當一個共享的 256MB、16 路組相聯內存端緩存,並扇出 8 個內存堆棧。對於每個堆棧,Infinity Cache 包含 16 個 64 字節寬的並行通道,以實現高帶寬,並與 2MB 的存儲數據陣列綁定。AMD CDNA 4 架構中的兩個 IOD 均包含四個顯著增強的內存控制器。HBM3E 內存接口的運行速度爲 8 Gbps,比 AMD Instinct MI325X 快 33% 以上,並提供驚人的 8TB/s 峯值理論內存帶寬。MI350-002 同樣至關重要的是,每個堆棧的內存容量已提升至 36GB,單個處理器最高可達 288GB,從而滿足了 AI 訓練和推理領域日益增長的內存需求。

在過去幾年中,尖端大型語言模型的參數數量呈爆炸式增長。 2020年年中,OpenAI 首次發佈了 GPT3,其參數數量高達 1750 億,然而到 2024 年底,研究人員已經在嘗試使用一萬億甚至更多的參數。在參數數量不斷增長的時代,提升內存容量可以爲訓練高級模型的研究人員釋放更多創新和能力。內存容量對於推理也至關重要。LLM 的上下文窗口決定了模型可以處理的輸入量,並直接影響用戶體驗。GPT3 的上下文窗口爲 2048 個 token,大約相當於 1500 個單詞或幾頁文本。爲了給用戶提供更大的靈活性和能力,現代 LLM 提供高達 200 萬個 token 的上下文窗口,比大多數書籍的篇幅還要長。但這是有代價的,因爲鍵值緩存的內存使用量會隨着上下文窗口的大小線性增長,這凸顯了內存容量在推理中的重要性。

AMD CDNA 4 計算和內存分區

與上一代 AMD Instinct MI300X GPU 一樣,AMD Instinct MI350 系列 GPU 可在計算和內存兩個維度上進行分區。在計算分區方面,AMD CDNA 4 架構系列與上一代類似,可以沿 XCD 線進行空間分區。對於 AI 訓練等較大問題,所有 XCD 可以協同處理單個任務。如下圖 6 所示,GPU 還可以劃分爲兩個、四個或八個計算分區,每個分區分別包含四個、兩個和一個 XCD,從而爲較小任務提供完全隔離。例如,單個處理器可以劃分爲多達八個實例,以同時爲較小的推理模型提供服務。

AMD CDNA 4 架構的內存分區與上一代相比發生了顯著變化,這主要是由於轉向了兩個 IOD。AMD CDNA 4 架構可以將內存交錯分佈在所有八個 HBM 堆棧上,跨越兩個 IOD,或者將 288GB 內存劃分爲兩個 144GB 的內存池,每個 IOD 一個。第一種配置稱爲 NPS1(每插槽數字內存),通常更易於應用程序移植,並且對於內存訪問模式極其均勻的工作負載非常有效。在 NPS2 模式下,所有內存流量都停留在單個 IOD 及其關聯的 XCD 內,從而減少了在兩個 IOD 之間跨越 AMD Infinity Fabric 網絡的開銷,並改善了延遲、帶寬和功耗,從而提升了整體性能和效率。比較兩代最高效運行模式下的性能,AMD CDNA 4 中的 DPX+NPS2 和 AMD CDNA 3 中的 QPX+NPS4,可以看出 IOD 重新分區帶來的顯著進步。高效的 AMD CDNA 4 分區擁有 7.7 倍的峯值計算吞吐量、2.25 倍的內存容量和 2.67 倍的內存帶寬,能夠以卓越的效率應對更具挑戰性的問題。

通信、擴展和系統

AMD Instinct MI350 系列 GPU 旨在滿足兩類不同的需求。對於某些客戶而言,上一代產品的直接兼容升級是理想之選——它能夠快速部署,並保留現有的基礎設施和生態系統投資。但其他客戶則專注於追求最佳性能和效率,並願意採用功耗和散熱需求更高的處理器和系統。爲了滿足這雙重需求,AMD CDNA 4 架構系列沿用了與上一代產品類似的通信和擴展方法,以實現直接兼容,同時進行漸進式改進,以支持最高性能的系統。

AMD CDNA 4 架構包含 8 條 AMD Infinity Fabric 鏈路,這些鏈路寬度爲 16 位,完全雙向,用於單個服務器節點內的程序包間通信。在上一代產品中,這些鏈路分佈在四個 IOD 上,並以 32Gbps 的速率運行。 AMD CDNA 4 架構中的 Infinity Fabric 鏈路運行速度比上一代提升高達 20%,達到 38.4Gbps,單向總鏈路帶寬達到 76.8GB/s,每個重新分區的 IOD 包含四條鏈路。MI350-007 每個 GPU 可在節點內提供 >1TB/s 的通信帶寬,其中一條 Infinity Fabric 鏈路配置爲 PCIe Gen 5,用於連接存儲和網絡等 I/O 設備。

AMD Instinct MI350 系列平臺:

8 OAM + AMD UBB 節點示例

如下圖 7 所示,AMD Instinct MI350 系列的系統架構與上一代產品相同,採用全連接 8 GPU 系統。每個 GPU 使用一條 PCIe®Gen 5 鏈路連接到主機處理器和 I/O 設備;這種拓撲結構可以靈活地處理服務器節點內的所有通信模式。AMD Instinct MI350 系列沿用 OAM 外形規格,提供 1000W 和 1400W 兩種功率版本。前者與之前部署的 AMD Instinct MI325X 代設計兼容,而後者仍然兼容,但需要適應更高的功率和散熱要求*。

AMD Instinct MI350 系列 GPU 包含兩款不同功率級別的產品。AMD Instinct MI350X 是一款 1000W 的風冷 GPU,通過 UBB8 基板部署,該基板與上一代 AMD Instinct MI325X GPU 系統設計兼容,採用 4 機架單元 (RU) 托盤高度。更高功率的 AMD Instinct MI355X GPU 採用 1400W DLC(直接液冷)解決方案,採用 2RU 托盤高度,專爲那些繼續採用直接液冷技術以實現更高密度和效率的系統構建者和客戶而設計。對於更高密度的解決方案,MI355X 還將提供 1OU 解決方案。

雖然 AMD Instinct MI350 系列各成員在處理器和服務器層面的原始性能差異相對較小,但直接液冷在機架層面卻有着巨大的影響,如上圖 8 所示。對於現有的 120kW 或 130kW 54U 機架基礎設施,AMD Instinct MI350X 平臺 (AC) 可容納多達 8 臺服務器,並提供 0.6 EFLOP/s 的 FP8 稀疏計算能力。AMD Instinct MI355X 平臺 (DLC) 在合理配置的 200kW 機架中可容納 16 臺服務器,並在同等佔用空間內提供約 118% 的計算能力提升。

適用於 AMD INSTINCT GPU 的

AMD ROCm軟件堆棧

軟件對於加速計算的成功至關重要——它能夠輕鬆部署和管理,並充分利用底層硬件來運行要求最苛刻的應用程序。AMD 軟件戰略建立在開源基礎之上——AMD ROCm 生態系統,它將開發者、客戶和整個社區凝聚在一起。這種開源方法讓每個人都能洞察複雜精密的堆棧,並根據自身需求進行檢查和調整。該戰略已得到一些全球規模最大、要求最高的客戶的認可和驗證,例如百億億次級 El Capitan 和 Frontier 超級計算機。反過來,這種採用推動了良性循環,使生態系統有機會快速成熟並擴大規模。

AMD Instinct MI350 系列和整體軟件戰略的指導原則是注重易用性,同時提供定製化服務。從軟件的角度來看,這意味着在編譯器、數學庫和調試器等基礎元素之上構建,以提供高級功能並減少大規模摩擦。這使客戶能夠快速輕鬆地管理、訓練和部署AI系統,並靈活地應對快速變化的環境,同時還能爲那些值得進行更大規模投資的企業提供深度優化。

AMD已採用Kubernetes來編排AI基礎架構,使客戶能夠輕鬆部署用於大規模訓練和推理服務的容器,並以成熟的雲或本地企業環境中所期望的安全功能和可靠性進行管理。作爲賦能生態系統的一部分,AMD創建了GPU Operator軟件包,它通過一套用於節點發現、插件安裝、健康檢查、故障排除、可觀察性等工具增強了Kubernetes。這種雲原生方法使AMD能夠與生態系統合作伙伴攜手,創建一個豐富的容器庫,造福整個社區,尤其側重於生成式AI。

在訓練方面,AMD 與 JAX 和 PyTorch 等領先的框架合作,提供優化的 ROCm 支持。ROCm 生態系統包含適用於分佈式訓練框架的容器,這些框架對於要求最嚴苛的生成式 AI 應用至關重要,例如 JAX 的 Maxtext,以及 PyTorch 的 Megatron LM 和 Torchtitan。對於開發流程的後期部分,例如微調和其他類似技術,Torchtune 庫也已針對 ROCm 進行了優化。這些框架和工具鏈已提前進行調整,以充分利用 AMD GPU 的架構特性,尤其是大內存容量或 Flash Attention v3 和滑動窗口注意力等關鍵技術。此外,AMD 還致力於優化一些最廣泛使用的開放模型,例如 Meta 的 Llama 系列。

在推理方面,AMD 與領先的服務框架 vLLM 和 SGLang 合作,創建了高度優化的容器,可隨時部署生成式 AI 進行大規模推理,包括爲最流行的生成式 AI 模型提供 Day 0 支持。vLLM 被推薦爲一款出色的通用解決方案,AMD 通過每兩週發佈一次穩定版本和每週發佈一次開發版本來支持該框架。對於代理工作負載、Deepseek 和其他特定用例,SGLang 是首選方案,並每週發佈一次穩定版本。除了服務框架之外,AMD 還優化了 Llama 系列、Gemma 3、Deepseek 和 Qwen 系列等領先模型,並提供 Day 0 支持,以便生態系統能夠在不斷變化的 AI 格局中輕鬆採用最新模型。

對於追求卓越性能的客戶,ROCm 生態系統包含豐富的內核級優化工具,包括端到端分析器、預構建且高度優化的內核和運算符,以及對 Triton 語言的廣泛支持。

下表 2 提供了 AMD Instinct MI350 系列 GPU 產品規格和特性。

結論

AMD CDNA 4 架構是第二代百億億次級架構,它充分利用了異構集成的優勢,並將處理器部署在與 AMD Infinity Fabric 連接的專用芯片組中,從而在 AMD Instinct MI350 系列 GPU 中提供突破性的性能和效率,並具備卓越的可製造性。AMD CDNA 4 架構在上一代架構的基礎上,繼續採用先進的 3D 封裝技術,將 XCD 計算芯片組垂直堆疊在專注於內存和通信的 IOD 芯片組之上,並獨立調整每個組件。八個 AMD CDNA 4 XCD 計算芯片組採用最新的製程技術,並添加了新的行業標準低精度數據類型、本地數據共享容量和帶寬以及執行資源,從而顯著提升了計算吞吐量,尤其適用於生成式 AI。承載內存和通信功能的 IOD 採用與上一代相同的工藝,但被整合爲兩個芯片組,從而降低了延遲並提升了效率,並通過採用 HBM3E 技術實現了更大的內存容量和帶寬。

AMD Instinct MI350 系列通過這些精心的架構優化,將性能和功能提升到了一個全新的水平。 AMD Instinct MI355X 型號可將現有低精度矩陣數據類型的計算吞吐量提升近一倍,並使用全新行業標準低精度 FP4 或 FP6 數據類型,將峯值性能提升 3.9 倍,爲生成式 AI 應用實現超過 10TFLOP/s 的計算吞吐量。MI350-005 同時,這些 GPU 將內存容量提升至 288GB HBM3E,並將內存帶寬提升 33% 至 8TB/s,並將通信帶寬提升至 1TB/s 以上,以應對規模最大、要求最高的科學或 AI 應用。MI350-002 GPU 的精心重新分區進一步提升了最高效分區模式的功能,峯值計算吞吐量提升 7.7 倍,內存容量提升 2.25 倍,內存帶寬提升 2.67 倍。

從系統和軟件角度來看,AMD Instinct MI350 系列不僅易於使用、部署簡便,還能提供最大化性能、效率和密度的選項。基礎 8 GPU 節點的系統架構在邏輯上與上一代相同,AMD Instinct MI350X UBB8 基板可與現有系統設計直接兼容,從而重複利用現有生態系統投資,並儘可能簡化部署。對於追求最高性能和密度的客戶,AMD Instinct MI355X GPU 提供直接液冷規格,可在 200kW 機架中容納多達 128 個 GPU,提供超過 2.5 ExaFLOP/s 的峯值 FP4 計算能力,並具備稀疏性能。

AMD 對開源 ROCm 生態系統的投入體現了這一理念,在幾代對科學計算的卓越支持基礎上,爲使用 Kubernetes 進行大規模編排提供廣泛的開箱即用支持。對於尖端的生成式 AI 工作負載,ROCm 生態系統包含 PyTorch 和 JAX 等框架、Megatron 和 Maxtext 等分佈式訓練包,以及 vLLM 和 SGLang 等服務框架。AMD 還與領先的 AI 開發者合作,爲該生態系統提供最熱門的生成式 AI 模型的 Day 0 支持。這些投入共同爲客戶提供了卓越的開箱即用體驗,而豐富的工具鏈則讓開發者能夠通過自定義內核和其他優化來追求更高性能。

AMD CDNA 4 架構的靈活性使 AMD 能夠突破 AMD Instinct MI350 系列的性能、功能和效率極限,同時提供便捷的部署和採用,幫助客戶儘快釋放潛力。這確保客戶可以信賴 AMD,以合適的解決方案幫助他們應對從科學計算到生成式 AI 等最嚴苛的工作負載。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10