在GTC 2026大會上,英偉達一口氣推出三款全新系統——Groq LPX推理機架、Vera ETL256 CPU機架與STX存儲參考架構,將其產品版圖從GPU算力核心向低延遲推理、CPU編排與存儲層全面延伸,標誌着英偉達正系統性地重構AI基礎設施的定義邊界。
其中最受市場關注的是Groq LPX系統。這是英偉達以200億美元完成對Groq知識產權授權與核心團隊引進後,不到四個月內推出的首款產品化成果。
LPX機架將Groq的LP30芯片與英偉達GPU深度整合,並引入"注意力與前饋網絡解耦"(Attention FFN Disaggregation,下稱AFD)技術,在高交互推理場景中針對性地壓縮解碼延遲,為大規模推理系統開闢了此前不存在的優化路徑。
與此同時,Vera ETL256將256顆CPU塞入單一液冷機架,以銅纜拓撲實現機架內全互聯,直接瞄準隨AI規模擴張而日益凸顯的CPU供給瓶頸;STX則通過標準化存儲參考架構,將英偉達的掌控範圍從算力層和網絡層正式延伸至存儲基礎設施層。
SemiAnalysis認為,三款系統共同指向同一個戰略信號:英偉達不再僅僅是GPU供應商,而是在向全棧AI基礎設施平台商演進,其觸角已覆蓋推理優化、CPU密度、存儲編排等此前由其他廠商主導的領域,這將深刻影響整個AI硬件供應鏈的競爭格局。
LPX與LP30:Groq架構正式融入英偉達推理棧
英偉達與Groq之間的交易在結構上被設計為知識產權授權與人才引進,而非傳統併購。英偉達由此幾乎即時獲得了Groq的全部IP和核心團隊,並在不到四個月內推出基於Groq第三代LPU架構的LP30芯片與LPX機架系統。
LP30採用三星SF4工藝,配備500MB片上SRAM,FP8精度下算力為1.2 PFLOPS,相較於Groq第一代LPU(230MB SRAM,750 TFLOPS INT8)實現了大幅提升,性能增長主要由製程節點從GF16遷移至SF4驅動。
LP30以單一整體裸片形式存在,無需先進封裝。值得關注的是,SF4工藝不擠佔英偉達在台積電N3上的稀缺產能配額,也不消耗同樣緊張的HBM資源,因此LPX系統代表的是真正意義上的增量產能與增量收入,據SemiAnalysis指出,這是競爭對手無法複製的差異化優勢。
LPU的核心價值與天然侷限
LPU架構的競爭優勢在於高帶寬SRAM與確定性流水線執行機制,這使其在單用戶低延遲場景下具備GPU難以企及的首token生成速度。然而,高密度SRAM的代價是容量受限——權重加載後所剩空間極為有限,隨批量增大KV Cache迅速飽和,整體吞吐量顯著弱於GPU。
據SemiAnalysis分析,獨立部署的LPU系統在大規模token服務上並不經濟,但在對延遲極度敏感的場景中可獲取可觀的溢價,這正是LPU在解耦解碼系統中的定位基礎。
AFD技術:GPU與LPU的角色分工
AFD技術將大模型推理中的注意力計算(Attention)與前饋網絡計算(FFN)拆分至不同硬件。注意力計算因涉及動態KV Cache加載,天然適合GPU處理;FFN計算因其無狀態、可靜態調度的特性,與LPU確定性架構高度契合。
在這一框架下,GPU專注處理注意力計算,HBM容量得以充分釋放用於KV Cache,提升系統可併發處理的token總量;LPU則承擔FFN計算,發揮其低延遲優勢。GPU與LPU之間通過All-to-All集合通信完成token的分發與匯聚,並以乒乓流水線方式隱藏通信延遲。
此外,LPU也可在投機解碼(Speculative Decoding)框架中發揮作用,將草稿模型或多token預測(MTP)層部署至LPU,進一步降低單次解碼步驟的延遲開銷,通常可將每次解碼步驟的輸出token數提升至1.5至2倍。
LPX機架架構
LPX機架由32個1U LPU計算托盤與2台Spectrum-X交換機構成。每個計算托盤搭載16塊LP30、2塊Altera FPGA(英偉達稱之為"Fabric Expansion Logic")、1顆Intel Granite Rapids主機CPU及1塊BlueField-4前端模塊。
FPGA在系統中承擔多重關鍵職能:將LPU的C2C協議轉換為以太網以接入Spectrum-X規模擴展網絡,提供LPU與主機CPU之間的PCIe橋接,並為系統提供每塊最高256GB的DDR5擴展內存用於KV Cache存儲。整個機架的規模擴展帶寬總計約640TB/s。
LPU模塊以"腹對腹"方式安裝於PCB板兩側,上下各8塊,旨在縮短全互聯網格所需的X和Y方向走線長度。節點內16塊LPU以全互聯Mesh拓撲相連,節點間通過銅纜背板互聯,跨機架連接則通過前面板OSFP接口實現。
Vera ETL256:256顆CPU的密度極限
隨着AI工作負載對數據預處理、調度編排和強化學習驗證的需求持續攀升,CPU正成為制約GPU利用率的新瓶頸。強化學習場景尤為突出——CPU需要並行運行仿真環境、執行代碼並對輸出進行驗證。GPU規模的擴張速度遠超CPU,使得維持GPU滿載所需的CPU集群規模不斷擴大。
英偉達的應對方案是Vera ETL256,將256顆Vera CPU集成於單一機架,依賴液冷實現這一密度目標。
該系統的設計邏輯與NVL計算機架一脈相承:將算力密度提升至銅纜可覆蓋機架內全部連接的臨界點,從而在主幹網絡層面完全消除光收發器的需求。銅纜帶來的成本節約,足以抵消液冷引入的額外開銷。
具體而言,Vera ETL機架由32個計算托盤構成,上下各16個,以4個1U MGX ETL交換托盤(基於Spectrum-6)為中軸對稱排列。這種對稱佈局刻意壓縮各計算托盤與主幹交換托盤之間的線纜長度差異,確保全部連接均處於銅纜可達範圍內。
每個交換托盤的後向端口負責機架內銅纜主幹通信,32個前向OSFP接口則提供與POD其餘節點的光纖連接。機架內網絡採用Spectrum-X多平面拓撲,將200 Gb/s通道分佈至四台交換機,在單一網絡層內實現256顆CPU的全互聯以太網連接,每個計算托盤承載8顆Vera CPU。
STX:英偉達向存儲層的系統性延伸
STX是英偉達在GTC 2026發布的存儲參考機架架構,與此前推出的CMX上下文存儲平台配套,共同構成英偉達向存儲基礎設施層滲透的完整佈局。
STX在CMX基礎上進一步建立參考架構,精確規定一個集群中需要配置多少磁盤驅動器、Vera CPU、BF-4 DPU、CX-9網卡和Spectrum-X交換機。
每個STX機箱內含2個BF-4單元,合計2顆Vera CPU、4塊CX-9網卡和4個SOCAMM模塊;整個STX機架共16個機箱,對應32顆Vera CPU、64塊CX-9網卡和64個SOCAMM。
英偉達在發布STX的同時罕見地點名一批主要存儲廠商——包括DDN、Dell Technologies、HPE、IBM、NetApp、Supermicro及VAST Data等——表示上述廠商均將支持STX標準,延續了英偉達以行業背書強化參考架構話語權的一貫做法。
據SemiAnalysis分析,BlueField-4、CMX與STX的組合,代表英偉達在完成算力層(GPU)與網絡層(Spectrum-X及NVLink)的主導地位之後,正在系統性地向存儲層、軟件層和基礎設施運營層推進。
三款新系統合力拓寬了英偉達的產品護城河,也意味着AI基礎設施供應鏈中更大比例的市場份額將持續向英偉達集中。