智通財經APP獲悉,國泰海通證券發佈研報稱,針對大語言模型(LLM)發展中面臨的「內存牆」難題,基於SSD的存儲卸載技術方案可為AI模型高效運行提供新路徑。AI創造的龐大數據量衝擊全球數據中心存儲設施,KV Cache緩存可從GPU內存offload至CPU、SSD。傳統作為海量數據存儲基石的Nearline HDD已出現供應短缺,促使高效能、高成本的SSD逐漸成為市場焦點,國泰海通證券給予電子行業「增持」評級。
國泰海通證券主要觀點如下:
行業觀點及投資建議。AI創造的龐大數據量衝擊全球數據中心存儲設施,KV Cache緩存可從GPU內存offload至CPU、SSD。傳統作為海量數據存儲基石的Nearline HDD已出現供應短缺,促使高效能、高成本的SSD逐漸成為市場焦點,給予行業「增持」評級。
推理KV Cache容量增長超出HBM承載能力。鍵值緩存(KV Cache)技術可以優化計算效率、減少重複運算,即將已生成token的Key和Value臨時存儲起來,後續生成新token時直接複用,無需重新計算,顯著提升推理效率。然而,KV Cache需要佔用GPU的顯存(如HBM),存儲歷史Key/Value向量,生成的文本越長,緩存數據量越大,可能導致HBM和DRAM超載。面對大模型PB級的天量數據,傳統推理架構過度依賴HBM的瓶頸也日益凸顯。隨着Agentic AI時代到來,模型規模化擴張、長序列需求激增以及推理任務併發量增長,推理的KV Cache容量增長已超出HBM的承載能力,頻繁的內存溢出,需要GPU反覆計算,造成卡頓遲緩。
KV Cache緩存可從GPU內存offload至CPU、SSD。隨着推理性能的重要性不斷提升,業界均在探索KV Cache分級緩存管理技術。如英偉達今年5月推出了分佈式推理服務框架Dynamo,支持將KV Cache緩存從GPU內存卸載到CPU、SSD甚至網絡存儲,解決大模型顯存瓶頸,避免重複計算。其中,KVBM提供G1-G4(GPU memory、CPU host memory、SSD、遠端存儲)的KV Cache卸載,避免大量 KV Cache 重計算。2025開放數據中心大會之新技術與測試(存儲)分論壇中,三星電子高級項目經理針對大語言模型(LLM)發展中面臨的「內存牆」難題,提出基於SSD的存儲卸載技術方案,為AI模型高效運行提供新路徑。三星將KV Cache卸載至NVMe SSD。當KV Cache大小超過HBM或DRAM容量時,該方案可使首token延遲(TTFT)最高降低66%,token間延遲(ITL)最高降低42%,且支持多用戶多輪對話場景下的KV Cache重用,隨着用戶與對話輪次增加,I/O吞吐量穩步上升,主要I/O模式為256KB讀寫。
AI存儲需求激發HDD替代效應,NAND Flash供應商加速轉進大容量Nearline SSD。根據TrendForce集邦諮詢,AI推理應用快速推升實時存取、高速處理海量數據的需求,促使HDD與SSD供應商積極擴大供給大容量存儲產品。由於HDD市場正面臨巨大供應缺口,激勵NAND Flash業者加速技術轉進,投入122TB、甚至245TB等超大容量Nearline SSD的生產。
風險提示:國產替代進程不及預期;技術迭代不及預期。