智通财经APP获悉,国泰海通发布研报称,DRAM制程微缩放缓背景下,3D架构转型与NPU协处理器结合将成为端侧AI发展的关键技术路径。研报指出,当前AI端侧推理速度的瓶颈在于内存带宽而非算力,而3DDRAM通过混合键合技术可显著提升传输效率(如800GB/s带宽下高通骁龙8GEN3的推理速度可从4.8 tokens/s跃升至57 tokens/s)。NPU作为协处理器的运用叠加3DDRAM极有可能是下一代的端侧技术趋势,给予行业“增持”评级,推荐兆易创新(603986.SH)。
国泰海通主要观点如下:
DRAM制程微缩放缓,长远命题在于从2D转向3D架构
随着DRAM制程节点不断缩小,目前DRAM芯片工艺已经突破到了10nm级别。工艺完整性、成本、电容器漏电和干扰、传感裕度等方面的挑战愈发明显,要在更小的空间内实现稳定的电荷存储和读写操作变得日益困难。随着DRAM芯片制程愈发先进,长远命题在于从2D转向3D架构;混合键合方案改进了Micro bump的堆叠高度限制等问题,代表3DDRAM未来技术路径。从技术差异上来说,WoW 3DDRAM与CUBE及现有的HBM方案主要差异在于键合方式分别为混合键合与Micro bump。与已广泛使用的Micro Bump堆叠技术相比,混合键合不配置凸块,可容纳较多堆叠层数,也能容纳较厚的晶粒厚度,以改善翘曲问题。使用混合键合方案的芯片传输速度较快,散热效果也较好。考虑到堆叠高度限制、IO密度、散热等要求,三大HBM原厂已确定于HBM520hi世代使用HybridBonding。
AI应用目前在走向百花齐放,而不是高度范化的统一模型
硬件侧在为应用的落地酝酿很多新技术储备,这些机会更加重要。MOE模型开始驱动小的大模型,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,激活10%参数量却能超过满血模型,也为端侧应用提供了模型基础。该行认为,海外硬件大厂在储备能让AI“泛在”与“常开”的技术,NPU作为协处理器的运用叠加3DDRAM极有可能是下一代的端侧技术趋势。
当前AI端侧推理速度的主要瓶颈在内存带宽而非算力,内存限制问题由3DDRAM解决
以高通骁龙8GEN3为例,其NPU算力约45 TOPs,内存带宽约为67 GB/s,若运行7B大模型,代入前述公式得到计算能力限制约3215 tokens/s,内存带宽限制约4.8 tokens/s,最终速度取两者中的最小值,确保实际推理不受硬件瓶颈限制,而其内存限制瓶颈明显远大于计算限制。DRAM+NPU通过HB堆叠的形式合封,该行假设以800 GB/s的内存带宽代入上述高通骁龙8GEN3的问题,内存限制将提升至57 tokens/s。中国大陆玩家兆易创新及其投资子公司青耘科技、光羽芯成,以及中国台湾存储IDM华邦电、手机AP龙头高通等,均发力3DDRAM+NPU方案,技术趋势明确。
风险提示:AI应用渗透不及预期;3DDRAM技术发展不及预期。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.