AI芯片「分工」時刻！谷歌第八代TPU，為什麼是兩款？

谷歌將AI芯片戰略推向新階段。

在周三拉斯維加斯舉行的Google Cloud Next 2026大會上，谷歌雲發布第八代張量處理器（TPU）的兩款新品——專為訓練設計的TPU 8t與專為推理優化的TPU 8i，這是谷歌首次將訓練與推理任務拆分至獨立芯片，標誌着其AI硬件路線的重大轉向。

兩款芯片均計劃於2026年晚些時候正式對外供應。與去年11月發布的第七代Ironwood TPU相比，TPU 8t在同等價格下性能提升2.8倍，TPU 8i性能提升80%；兩款芯片每瓦性能均較上一代提升逾一倍，TPU 8t達124%，TPU 8i達117%。

谷歌高級副總裁兼AI與基礎設施首席技術官Amin Vahdat表示，隨着AI智能體的興起，"業界將受益於針對訓練和推理各自需求專門優化的芯片"。Alphabet首席執行官桑達爾·皮查伊亦在博客中指出，這一架構旨在"以具有成本效益的方式，提供同時運行數百萬個智能體所需的大規模吞吐量和低延遲"。

為何拆分為兩款芯片

此次將第八代TPU一分為二，是谷歌對AI工作負載日益分化趨勢的直接回應。預訓練、後訓練與實時推理在計算特性上已顯著分化：訓練任務追求極致吞吐量與規模擴展，推理任務則對延遲和併發更為敏感。單一芯片難以同時兼顧兩類場景的效率最優。

谷歌在技術博客中指出，第八代TPU的設計哲學圍繞可擴展性、可靠性與效率三大支柱，兩款芯片共享谷歌AI軟件棧的核心基因，但各自針對不同瓶頸進行了專項優化。

兩款芯片均集成了基於Arm架構的Axion CPU，以消除數據預處理延遲造成的主機側瓶頸，確保TPU計算單元持續滿載運行。

TPU 8t：面向超大規模訓練的算力引擎

TPU 8t定位為預訓練與嵌入密集型工作負載的專用加速器，谷歌稱其能夠"將前沿模型開發周期從數月壓縮至數周"。

在規模上，TPU 8t最多可將9600塊芯片組合為單一超級計算節點（superpod），並通過JAX與Pathways框架將分佈式訓練擴展至單一集群超過100萬塊TPU芯片。

芯片層面，TPU 8t引入了三項關鍵技術創新。

其一是SparseCore加速器，專門處理嵌入查找中不規則的內存訪問模式，將數據依賴的全局聚合操作從矩陣乘法單元（MXU）中卸載，避免通用芯片常見的零操作瓶頸。

其二是原生FP4支持，通過4位浮點數將MXU吞吐量翻倍，同時降低數據搬運的能耗，使更大的模型層可駐留於本地硬件緩衝區。

其三是更均衡的向量處理單元（VPU）擴展設計，使量化、softmax等向量操作與矩陣乘法實現更好的流水線重疊，提升芯片整體利用率。

網絡層面，谷歌為TPU 8t引入了全新的Virgo網絡架構，採用高基數交換機與扁平化兩層非阻塞拓撲，將數據中心網絡（DCN）帶寬較上一代提升最高4倍，芯片間互聯（ICI）帶寬提升2倍。單一Virgo網絡可連接逾13.4萬塊TPU 8t芯片，提供高達47拍比特/秒的非阻塞雙向帶寬，整體算力超過160萬ExaFlops。

存儲方面，TPU 8t引入TPUDirect RDMA與TPUDirect Storage技術，繞過主機CPU直接在TPU高帶寬內存（HBM）與網卡、高速存儲之間傳輸數據，存儲訪問速度較第七代Ironwood TPU提升10倍，可確保MXU在處理大規模多模態數據集時保持滿載。

TPU 8i：面向高併發推理的低延遲專家

TPU 8i針對後訓練階段與高併發推理場景設計，其架構重心在於降低延遲、提升每芯片的併發處理能力。

片上存儲是TPU 8i最顯著的硬件特徵。每塊芯片集成384MB靜態隨機存取存儲器（SRAM），是上一代Ironwood的三倍，可將更大的KV Cache完整保留在芯片上，大幅減少長上下文解碼過程中核心的空閒等待時間，對需要多步驟推理的AI任務尤為關鍵。

TPU 8i還引入了集合加速引擎（CAE），專門加速自迴歸解碼與"思維鏈"處理中的歸約與同步步驟。每塊TPU 8i芯片包含兩個張量核心（TC）與一個CAE芯粒，取代了上一代Ironwood中的四個SparseCore，片上集合操作延遲降低5倍，直接提升了同時運行數百萬智能體所需的吞吐量。

網絡拓撲方面，TPU 8i放棄了TPU 8t沿用的3D環面（torus）結構，轉而採用全新的Boardfly互聯拓撲。3D環面在1024芯片配置下，任意兩芯片間最多需要16跳；Boardfly通過高基數設計將最大跳數壓縮至7跳，網絡直徑縮減56%，全對全通信延遲改善最高50%，對混合專家模型（MoE）和推理模型中頻繁的跨芯片令牌路由尤為有利。Boardfly採用分層結構，從四芯片構建塊逐級擴展至最多1152塊芯片的完整Pod，並通過光學電路交換機（OCS）實現組間互聯。

軟件生態與市場意義

谷歌強調，硬件性能的釋放有賴於配套軟件棧的協同。

第八代TPU延續第七代Ironwood建立的軟件體系，支持JAX、PyTorch、Keras及vLLM等主流框架，並提供Pallas自定義內核語言以充分挖掘SparseCore與CAE的硬件潛力。

谷歌同時宣佈，原生PyTorch對TPU的支持現已進入預覽階段，用戶可直接將現有PyTorch模型遷移至TPU運行，無需修改代碼。

從市場角度看，谷歌此次雙芯片策略直接回應了AI基礎設施成本壓力。訓

練與推理對硬件的需求差異顯著，統一芯片意味着在某一場景下必然存在資源浪費。通過專項優化，谷歌得以在價格性能比上實現更大幅度的提升，為雲客戶提供更具競爭力的單位算力成本。

兩款芯片均已納入谷歌雲AI Hypercomputer超算架構，與硬件、軟件及網絡深度集成，覆蓋AI全生命周期工作負載。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

AI芯片「分工」時刻！谷歌第八代TPU，為什麼是兩款？

為何拆分為兩款芯片

TPU 8t：面向超大規模訓練的算力引擎

TPU 8i：面向高併發推理的低延遲專家

軟件生態與市場意義

熱議股票