過去二十多年,計算性能的提升受益於摩爾定律的擴展,性能增長達到了60000倍,如圖1所示。然而,同一時期內,I/O帶寬僅增長了30倍。當下,如何將高帶寬互連擴展到單個機架之外是NVIDIA以及其他廠商都面臨的必然挑戰。
據行業分析公司LightCounting的分析指出:將 GPU集群從36-72個芯片擴展到500-1000個芯片是加速人工智能訓練的最佳選擇;在未來3年內,即使是推理集群也可能需要多達 1,000 個GPU才能支持更大的模型。共封裝光學器件(CPO,Co-Packaged Optics)可能是在4-8機架系統中提供數萬個高速互連器件的唯一選擇。
圖1:不同代際互連和存儲的帶寬(BW)以及硬件(HW)峯值FLOPS的擴展。值得注意的是,互連帶寬增長的速度遠低於硬件FLOPS。(來源:IBM論文,arXiv:2412.06570)
目前,數據中心在數據傳輸中已廣泛依賴光學技術,但對於短至中長距離(< 2米)的互連連接,光學技術的應用仍較少。雖然傳統的可插拔光學可作為過渡技術,但其帶寬增長速度遠低於數據中心流量的增長速度,應用需求和傳統可插拔光學技術能力之間的差距不斷加大,這一趨勢是不可持續的。
共封裝光學(CPO)作為一種顛覆性技術,通過先進的封裝技術和電子光子協同優化,極大地縮短電氣連接路徑,從而提高互連帶寬密度和能效。因而,CPO也被譽為AI時代的關鍵互連技術之一。LightCounting創始人兼首席執行官Vlad Kozlov表示:
「我們預測,到 2029 年,CPO端口出貨量將從目前的不到5萬個增長到超過1800萬個,其中大多數端口將用於服務器內的連接。」
圖2:1.6T線纜類和1.6T 50m CPO端口的發貨量(圖源:LightCounting)
而從博通、Marvell、IBM等各家廠商在CPO領域的最新進展來看,CPO將迎來雲廠商的快速採用和部署的浪潮。
博通CPO,商業化加快
2024年12月30日,據經濟日報的報道,台積電硅光戰略取得重大進展,近期實現共封裝光學元件(CPO)與先進半導體封裝技術的整合,預計2025年初開始樣品交付,博通和NVIDIA將成為台積電該解決方案的首批客戶。
報道中指出,台積電與博通聯合開發的微環調製器(MRM)近期已通過3nm試產,為頂級AI芯片集成到CPO模塊奠定基礎,預計台積電將採用其CoWoS或SoIC先進封裝。此舉也說明CPO技術已從研發階段向量產化邁進,1.6T光傳輸時代正加速到來。
去年3月份,博通已向小部分客戶交付了業界首款 51.2 兆兆位/秒 (Tbps) 共封裝光學 (CPO) 以太網交換機 Bailly。該產品集成了八個基於硅光子的 6.4-Tbps 光學引擎和 Broadcom 一流的 StrataXGS Tomahawk5 交換機芯片。與可插拔收發器解決方案相比,Bailly 使光學互連的運行功耗降低了70%,硅面積效率提高了8倍。
圖3:51.2T Tomahawk 5交換機,配備8個Bailly光學引擎(圖源:broadcom)
隨着台積電的強勢參與,為CPO技術注入了可信賴的供應鏈能力,並可能助推博通CPO方案在市場中加速推廣,為芯片與光學技術的融合提供強有力的支撐。
Marvell:XPU架構正式整合CPO
Marvell在收購Inphi之後,大大增強了在光通信和數據中心領域的研發能力。自2017年以來,Marvell開始為全球頂級超大規模數據中心提供硅光子設備,併成功將其應用於COLORZ數據中心互連光學模塊。這一技術已獲得多個行業領先的數據中心認證,並實現大規模生產。截至目前,Marvell的硅光設備已累計記錄超過100億小時的現場運行時間。
作為硅光技術發展的下一步,Marvell正重點佈局共封裝光學(CPO)技術,這是公司在下一代互連技術發展中的關鍵一步。
2025年1月6日,Marvell宣佈,其下一代定製XPU架構將採用共封裝光學 (CPO) 技術。CPO技術使得AI服務器的規模從目前使用銅互連的機架內數十個XPU擴展到使用CPO 的多個機架中的數百個XPU,這意味着AI服務器的計算能力可以在更大範圍內得到提升,同時保持低延遲和高效的能耗表現。
Marvell指出,下一代定製AI加速器XPU架構使用高速 SerDes、die-to-die芯片接口和先進封裝技術,將 XPU計算芯片、HBM和其他芯片與Marvell 3D SiPho引擎整合在同一基板上。這種方法無需電信號離開XPU封裝進入銅纜或穿過印刷電路板。
CPO利用高帶寬硅光子光學引擎來提高數據吞吐量,與傳統銅連接相比,硅光子光學引擎可提供更高的數據傳輸速率,並且不易受到電磁干擾。這種集成還通過減少對高功率電氣驅動器、中繼器和重定時器的需求來提高電源效率。
早在2024年,Marvell就展示了全球首款3D SiPho引擎——一個集成度極高的光學引擎,支持200Gbps的電氣和光學接口。
而Marvell 6.4T 3D SiPho 引擎是一款高度集成的光學引擎,具有 32 個 200G 電氣和光學接口通道、數百個組件(例如調製器、光電探測器、調製器驅動器、跨阻放大器、微控制器)以及大量其他無源組件,這些組件集成在一個統一的設備中,與具有 100G 電氣和光學接口的同類設備相比,可提供 2 倍的帶寬、2 倍的輸入/輸出帶寬密度和 30% 的每比特功耗降低。多家客戶正在評估該技術,以將其集成到其下一代解決方案中。
圖3:使用CPO的下一代定製AI加速器XPU(圖源:marvell)
藉助集成光學器件,XPU 之間的連接可以實現更快的數據傳輸速率和比電纜長100 倍的距離。這可以在 AI 服務器內實現跨多個機架的擴展連接,並具有最佳延遲和功耗。通過實現更長距離和更高密度的 XPU 到 XPU 連接,CPO 技術促進了高性能、高容量擴展 AI 服務器的開發,從而優化了下一代加速基礎設施的計算性能和功耗。
Marvell的此次宣佈無疑昭示出CPO已經逐漸被XPU廠商認可。要知道,Marvell前不久才與全球雲端服務供應商龍頭亞馬遜AWS簽署五年合作協議,供應亞馬遜AWS客製化AI芯片。隨着Marvell AI定製化芯片整合CPO步伐的加快,預計CPO的應用和部署將大大提速。
IBM:新工藝突破加速CPO實現
儘管硅光子學並不是一個新概念,但需要開發先進的製造工藝和器件結構,以滿足CPO的需求。近年來,CPO解決方案逐漸興起。儘管如此,CPO的廣泛應用仍面臨許多挑戰,而增加光纖集成密度可能是推動市場採納的一個步驟。
近日,IBM宣佈,其研究人員開創了一種新型的共封裝光學(CPO)工藝,全新的共封裝光學 (CPO) 原型將通過使用聚合物材料來引導光學而不是傳統的基於玻璃的光纖。IBM 的論文概述了這些新的高帶寬密度光學結構如何與每個光通道傳輸多個波長相結合,有可能將芯片之間的帶寬提高到電氣連接的 80 倍。
在IBM的技術研究論文《Next generation Co-Packaged Optics Technology to Train & Run Generative AI Models in Data Centers and Other Computing Applications,下一代共封裝光學技術用於在數據中心和其他計算應用中訓練和運行生成式AI模型》中報告了成功設計和製造基於50微米間距聚合物波導接口的光學模塊,這些模塊經過集成優化,能夠實現低損耗、高密度的光數據傳輸,並在硅光子芯片上佔據極小的空間。
該原型模塊符合JEDEC可靠性標準,承諾將芯片邊緣可連接的光纖數量——即所謂的「海濱密度」——提高六倍,超越了當前最先進技術的水平。聚合物波導的可擴展性,使其能夠縮小至小於20微米的間距,預計將使帶寬密度提升至10 Tbps/mm以上。
圖4展示了光學測試載體的初步示意圖,包括測試載體組件的頂部視圖和側視圖,並展示了組裝集成。
圖中,PIC芯片尺寸為8 x 10 mm²,基板尺寸為17 x 17 mm²,光波導長度小於12 mm。圖4還展示了基板(綠色)、PIC(灰色)、光波導(紅色)、光纖連接器(深灰色)、PIC到PWG的絕熱耦合區(無凸點區)、翻轉芯片凸點陣列(小的銅色球體)、微型BGA陣列(大的銅色球體)以及蓋板(頂部視圖為透明形狀,截面為銅塊形狀)的堆疊視圖(左)和橫截面視圖(右)。
圖4:IBM CPO模塊測試載體(來源:IBM論文,arXiv:2412.06570)
圖5:IBM 光學測試載體1b的照片,左圖為PIC到基板的組裝頂部視圖,右圖為顯示基板的底部視圖,基板上安裝有微型BGA,PIC和蓋板附加在頂部,PWG連接在PIC上,蓋板連接在光纖連接器上,作為模塊組裝的最後步驟。(圖源:IBM)
根據Weight&Biases的報道,在使用GPU訓練時,網絡經常成為瓶頸,導致三分之一的用戶平均利用率不足15%。這無疑增加了成本和能耗。對於參數超過十億的模型,在8000個H100 GPU上訓練大約需要3個月。
根據估算,訓練一個GPT-4模型可能消耗50千兆瓦時的電力。此外,國際能源署(IEA)計算出,2022年數據中心消耗了460太瓦時的電力,佔全球電力需求的近2%,預計這一數字到2026年將翻倍。
而IBM的全新的CPO工藝技術有望顯著提高數據中心通信的帶寬,減少GPU空閒時間,同時大幅加速AI處理過程。根據這一創新研究,未來CPO技術可帶來如下成果:
-
更低的生成式AI擴展成本:相比中等距離電氣互連,CPO可減少超過5倍的能耗,同時將數據中心互連電纜的傳輸距離從一米延伸至數百米。
-
更快的AI模型訓練:通過CPO,開發者能夠將大型語言模型(LLM)的訓練速度提高至常規電氣線路的五倍,預計訓練一個標準LLM的時間可從三個月縮短至三周,性能提升會隨着使用更大模型和更多GPU而進一步增強。
-
顯著提高數據中心能效:每訓練一個AI模型,CPO技術將節省相當於5,000戶美國家庭年用電量的能量。
IBM還在努力開發下一代測試載體,採用子20 µm間距的光波導、增加的波導通道、增加的多波長(λ)兼容硬件演示,並提供多個層次的光纖連接器/連接器組裝選項,適用於CPO模塊。針對這一未來節能硬件演示的建模和仿真表明,該技術能夠支持更高的帶寬密度。
藉助改進的能源效率,提升未來生成性AI應用和其他計算應用的性能已成為可能,令人激動地推動這一進程。IBM計劃在2025年初發布更多詳細的CPO信息。
結語
過去很多人對CPO的技術和商業化存疑,但看現在大廠們的動作,CPO已成AI時代的大勢所趨。與此同時,CPO與可插拔光模塊的競爭關係更可能是互補而非完全取代。CPO技術的崛起不會立即威脅到可插拔光模塊的主流地位,而是會在特定高性能場景中逐步佔據一席之地。
從長期來看,CPO和Optical IO都可能在推動數據中心光互聯技術的升級中發揮重要作用。
本文來源:半導體行業觀察,原文標題:《三大芯片巨頭,搶進CPO》