智通財經APP獲悉,中信證券發佈研報稱,預計超節點方案有望快速上量,作為未來底層AI基礎設施的基本計算單元,超節點scale up域具備高效通信帶寬、原生內存語義等優勢,天然適配當前主流的MoE架構模型的計算。超節點在系統層面的「反解耦」使得整體系統價值得以提升,本身設計也面臨更多挑戰,多芯片功耗、散熱、機櫃可靠性等諸多挑戰亟待解決,同時也要考慮到系統運行中所面臨的困難,中信證券認為超節點有望通過更高的技術附加帶來整機環節價值量的提升。中信證券看好超節點服務器整機環節的未來發展,建議關注產業鏈相關公司。
中信證券主要觀點如下:
MoE架構模型對硬件提出新要求,Scale up超節點應運而生。
在Scaling law的發展背景下,主流AI大模型為追求更大參數規模與更高運行效率,普遍採用MoE(混合專家)架構。得益於專家網絡的獨特結構,其天然適配專家並行的計算模式——這種方式雖能有效優化計算與訪存瓶頸,卻隨之引入了新的通信難題,基於Scale up網絡的超節點由此應運而生。相較於傳統八卡服務器,超節點面臨更為複雜的系統性挑戰:一是海量芯片協同工作帶來的系統散熱壓力;二是多芯片間光、銅混合互連方案引發的穩定性問題;三是多零部件長期運行下的可靠性隱患。這類問題往往需要服務器廠商與上游各環節廠商深度協同,方能探索全局最優解決方案,這也使得整機環節在產業鏈中的話語權顯著提升。
海內外超節點百家爭鳴,國產超節點在部分技術領域實現超越。
海外超節點以英偉達NVL72為主要解決方案,此外Google Ironwood Rack採用Google自研TPUv7芯片,最大支持9216顆芯片集羣擴展。國內近期超節點如華為CloudMatrix384、阿里磐久、曙光ScaleX640等解決方案悉數亮相。我們認為當前是各家超節點解決方案的早期發展階段,超節點作為未來底層AI基礎設施的基礎單元,將從百家爭鳴的技術方案逐步收斂到有限的方向之中。
算力密度方面,Scale up的規模當前尚未有清晰結論,更大規模的Scale up域在模型訓練及推理上有望帶來性能收益,但結合成本與可靠性等方面因素,該話題仍需依賴技術發展而給出答案。
網絡拓撲方面,當前胖樹架構、3D-Torus等拓撲各具優勢與劣勢,我們認為胖樹結構在通用性的角度或將在短期佔據更高的市場份額,具備軟硬件自研能力的大廠有望嘗試3D-Torus等方案帶來的便利。
物理連接方面,我們認為無背板正交在連接簡潔性、機櫃緊湊性等方面具備優勢,或將成為未來超節點的主流技術方案。
散熱方面,隨着單機櫃算力密度的逐步提升,PUE更接近1的液冷散熱方案或將迎來更大發展機會,如相變浸沒液冷等方案若能解決其穩定性等方面問題或將得到更大規模應用。
超節點「反解耦」帶來系統價值提升,技術附加值進一步顯現。
過去以八卡形態為主的AI服務器,產業鏈分工清晰、各環節工藝成熟穩定,服務器廠商核心承擔標準化零部件的組裝整合工作,即可高效完成產品交付,技術門檻相對集中於單一部件層面。而超節點服務器的技術複雜度實現了質的躍升:多芯片協同帶來的功耗管控、高密度集成下的散熱難題、整機櫃級的長期可靠性保障等,均是前所未有的系統性挑戰。這使得服務器廠商不再是簡單的「組裝者」,而是AI算力產業中核心的「系統整合者」——超節點本質是一體化計算系統,從設計之初就需要深度考量芯片、散熱、互連等多部件的耦合關係,通過跨環節技術協同破解全局難題。這種系統性、一體化的設計與整合需求,大幅提升了超節點服務器的技術門檻,也讓整機環節在產業鏈中的話語權進一步強化,成為把握技術方向與系統性能的核心樞紐,我們認為其技術附加值有望逐步顯現。
風險因素:
算力芯片擾動供應鏈風險;芯片產能供給不足的風險;互聯網大廠資本開支不及預期的風險;相關產業政策不及預期的風險;AI應用發展不及預期的風險;芯片技術迭代不及預期的風險;國產GPU廠商競爭加劇的風險等。
投資策略:
超節點技術方興未艾,MoE架構料將成為大模型主流架構,其架構的特殊性對硬件發展提出新的適應性要求,Scale up超節點有望通過高效的網絡通信以及原生內存語義帶來更加優秀的解決方案。我們預計超節點有望成為未來AI基礎設施的底層計算單元。當前時點,海內外超節點方案百家爭鳴,儘管在網絡拓撲、通信協議等方面存在差異,但我們認為算力密度提升、散熱能力提升、穩定性和可靠性等方面具備發展的高確定性,而相關技術為服務器整機的生產製造帶來新的要求,具備定製化開發能力以及供應鏈管理能力的服務器廠商有望獲得更大發展機會。建議關注產業鏈相關公司。