當地時間7月23日,美國人工智能初創企業xAI CEO埃隆·馬斯克(Elon Musk)宣佈,xAI 計劃在未來五年內部署相當於5,000萬個NVIDIA H100 等級的AI GPU,這一目標不僅在規模上超越當前的AI 硬件標準,還將在能效上有顯著提升。
50 ExaFLOPS 用於 AI 訓練
雖然5000萬個NVIDIA H100的數量看起來很多,但考慮到這裏指的是“等效算力”,這也意味着如果xAI未來五年持續採用最先進的GPU,可能只需要不到100萬個左右就能夠實現。
目前一個 Nvidia H100 GPU 可以爲 AI 訓練提供大約 1,000 FP16/BF16 TFLOPS(這些是目前最流行的 AI 訓練數據格式),因此到 2030 年,5000 萬臺此類 AI 加速器將需要提供 50 個 FP16/BF16 ExaFLOPS算力用於 AI 訓練。根據當前的性能改進趨勢,這在未來五年內是可以實現的。
需要65萬個Feynman Ultra GPU
假設NVIDIA(或其他AI芯片公司)將繼續以略慢於 Hopper 和 Blackwell 的升級速度擴展其 GPU 的 BF16/FP16 訓練性能,那麼預計到 2028 年將使用 130 萬個 最新的GPU 或 2029 年使用 65萬個最新的GPU。
如果 xAI 有足夠的錢花在英偉達最新的AI芯片上,甚至有可能更早實現部署 50 ExaFLOPS 的AI算力的目標。
目前馬斯克 的 xAI 已經部署最新 AI GPU 加速器,以提高該公司的AI訓練能力,其 Colossus 1 超級集羣使用了 200,000 個基於 Hopper 架構的NVIDIA H100 和 H200 加速器,以及 30,000 個基於 Blackwell 架構的 GB200 加速器。
此外,xAI接下來的目標是構建由 550,000 個 GB200 和 GB300 節點組成的 Colossus 2 集羣(每個節點都有兩個 GPU,因此該集羣將配備超過 100 萬個 GPU)。據馬斯克透露,第一批節點將在未來幾周內上線。
性能穩定提升
英偉達(和其他公司)新的 AI 加速器的更新節奏現在轉向了每年一更新,而具體產品的性能升級幅度類似於英特爾過去的 Tick-Tock 模型,即一年小升級,一年大升級。例如,Blackwell後續是Blackwell Ultra,再接下來是Rubin,後續是Rubin Ultra。
這種方法確保了每年性能的顯著提高,從而確保了長期性能的顯著提升。例如,英偉達聲稱其Blackwell B200的推理性能比2016年Pascal P100高出了20000倍,提供約20000個FP4 TFLOPS性能,而P100的性能只有19個FP16 TFLOPS。雖然不是直接比較,但該指標與推理任務相關。當以每生成一個Token的焦耳數來衡量時,Blackwell的能源效率也是Pascal的42500倍。
事實上,英偉達和其他公司並沒有隨着性能的持續提高而放緩性能提高的速度。例如,Blackwell Ultra架構(B300系列)在人工智能推理方面的FP4性能(15 FPLOPS)比原始Blackwell GPU(10 FPLOPS)高出50%,在人工智能訓練方面的BF16和TF32格式性能高出兩倍,但INT8、FP32和FP64性能較低。作爲參考,BF16和FP16是用於AI訓練的典型數據格式(儘管FP8似乎也經過了評估),因此可以合理地預期英偉達將通過其下一代Rubin、Rubin Ultra、Feynman和Feynman Ultra GPU來提高這些數據格式的性能。
根據計算,英偉達H100的FP16/BF16的性能相比A100提高了3.2倍,然後B200相比H100性能又提高了2.4倍。當然,實際的訓練性能不僅取決於新GPU的純數學性能,還取決於內存帶寬、模型大小、並行性(軟件優化和互連性能)以及FP32的累積使用。然而,可以肯定地說,英偉達可以通過每一代新一代的GPU將其訓練性能(FP16/BF16格式)提高一倍。
假設英偉達可以通過基於Rubin和下一代的Feynman架構的四代後續AI加速器實現上述性能提升,那麼在2029年的某個時候,大約需要65萬個Feynman Ultra GPU才能達到大約50個BF16/FP16 ExaFLOPS。
耗電量巨大
儘管馬斯克的xAI和其他人工智能領導者可能會在未來四五年內獲得50 BF16/FP16 ExaFLOPS用於人工智能訓練,但最大的問題是這樣一個超級AI集羣將消耗多少電力?
一個H100 AI加速器功耗大約700W,因此其中5000萬個處理器將消耗35吉瓦(GW),相當於35座核電站的典型發電量,這使得今天爲如此龐大的數據中心供電變得不現實。即使是Rubin Ultra的集羣也需要大約9.37吉瓦的電力。假設Feynman架構使BF16/FP16的每瓦性能比Robin架構翻了一番,一個50 ExaFLOPS集羣仍將需要4.685 GW的電力,這遠遠超過了xAI的Colossus 2數據中心所需的1.4 GW-1.96 GW。這一需求將對美國當前的能源基礎設施提出嚴峻的挑戰。
編輯:芯智訊-浪客劍