国泰海通:打破内存墙限制 AI SSD迎来广阔成长空间

智通财经
10/28

智通财经APP获悉,国泰海通证券发布研报称,针对大语言模型(LLM)发展中面临的“内存墙”难题,基于SSD的存储卸载技术方案可为AI模型高效运行提供新路径。AI创造的庞大数据量冲击全球数据中心存储设施,KV Cache缓存可从GPU内存offload至CPU、SSD。传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点,国泰海通证券给予电子行业“增持”评级。

国泰海通证券主要观点如下:

行业观点及投资建议。AI创造的庞大数据量冲击全球数据中心存储设施,KV Cache缓存可从GPU内存offload至CPU、SSD。传统作为海量数据存储基石的Nearline HDD已出现供应短缺,促使高效能、高成本的SSD逐渐成为市场焦点,给予行业“增持”评级。

推理KV Cache容量增长超出HBM承载能力。键值缓存(KV Cache)技术可以优化计算效率、减少重复运算,即将已生成token的Key和Value临时存储起来,后续生成新token时直接复用,无需重新计算,显著提升推理效率。然而,KV Cache需要占用GPU的显存(如HBM),存储历史Key/Value向量,生成的文本越长,缓存数据量越大,可能导致HBM和DRAM超载。面对大模型PB级的天量数据,传统推理架构过度依赖HBM的瓶颈也日益凸显。随着Agentic AI时代到来,模型规模化扩张、长序列需求激增以及推理任务并发量增长,推理的KV Cache容量增长已超出HBM的承载能力,频繁的内存溢出,需要GPU反复计算,造成卡顿迟缓。

KV Cache缓存可从GPU内存offload至CPU、SSD随着推理性能的重要性不断提升,业界均在探索KV Cache分级缓存管理技术。如英伟达今年5月推出了分布式推理服务框架Dynamo,支持将KV Cache缓存从GPU内存卸载到CPU、SSD甚至网络存储,解决大模型显存瓶颈,避免重复计算。其中,KVBM提供G1-G4(GPU memory、CPU host memory、SSD、远端存储)的KV Cache卸载,避免大量 KV Cache 重计算。2025开放数据中心大会之新技术与测试(存储)分论坛中,三星电子高级项目经理针对大语言模型(LLM)发展中面临的“内存墙”难题,提出基于SSD的存储卸载技术方案,为AI模型高效运行提供新路径。三星将KV Cache卸载至NVMe SSD。当KV Cache大小超过HBM或DRAM容量时,该方案可使首token延迟(TTFT)最高降低66%,token间延迟(ITL)最高降低42%,且支持多用户多轮对话场景下的KV Cache重用,随着用户与对话轮次增加,I/O吞吐量稳步上升,主要I/O模式为256KB读写。

AI存储需求激发HDD替代效应,NAND Flash供应商加速转进大容量Nearline SSD根据TrendForce集邦咨询,AI推理应用快速推升实时存取、高速处理海量数据的需求,促使HDD与SSD供应商积极扩大供给大容量存储产品。由于HDD市场正面临巨大供应缺口,激励NAND Flash业者加速技术转进,投入122TB、甚至245TB等超大容量Nearline SSD的生产。

风险提示:国产替代进程不及预期;技术迭代不及预期。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10