HBM,为何那么贵?

格隆汇
10小时前

现在,HBM(高显存显存)几乎成了人们热议的话题。股票论坛、新闻媒体、甚至餐桌上,到处都在谈论它——“HBM 供应短缺”或者“NVIDIA 因为 HBM 的缘故,GPU 产能不足”。

但几乎没有人解释它究竟难在哪里。大多数报道都止步于“他们用 TSV(硅通孔)堆叠芯片”或者“微凸点必须完美对齐”。这算不上解释,只是简单的说明而已。

本文将详细介绍 HBM 生产的每个阶段——设计、制造、测试、封装——并解释每个阶段的真正难点所在。文章还会涵盖产品交付给客户之后的情况,因为那才是真正出乎意料的有趣之处。本文所有内容均基于亲身经历和公开的技术资料。


设计:不仅仅是堆叠式DRAM


总线宽度问题

标准的DDR5接口宽度为64位。HBM3E的运行宽度为1024位。HBM4则将其提升至2048位。更宽的总线宽度不仅仅意味着更多的导线——每个I/O引脚都需要独立的信号通路,而且考虑到电源和控制信号,单个HBM3E或HBM4堆叠就需要与相邻的GPU建立超过一千个连接。

你无法在PCB上实现这种布线。几何结构不兼容。这就是硅中介层存在的根本原因,也是像CoWoS这样的2.5D封装不可或缺的原因。我们稍后会详细讨论这一点。

通过TSV进行电源分配

HBM中最容易被忽视的设计挑战之一是电源分配网络。通过TSV为12或16个堆叠芯片提供纯净电源确实非常困难——在刷新操作等高电流事件期间,上层芯片的电压下降会成为一个严重的问题。

公司如何安排其TSV布局以进行管理是内存厂商之间核心的专有技术差异化因素之一。它直接决定良率和性能,因此无人公开相关信息。

HBM4的逻辑基片

HBM4改变了游戏规则。前几代产品均采用DRAM工艺技术。HBM4的基片(堆叠结构的底层)将采用代工厂级逻辑工艺制造,行业报告指出台积电的12nm工艺和三星的SF级工艺节点均有可能采用。具体的节点规格仍需各公司官方发布公告。

更重要的是,这种基础芯片可以承载客户定制的逻辑电路。这意味着NVIDIA的HBM4和AMD的HBM4在物理结构上将是不同的产品。内存正在从通用组件向半定制组件过渡,而对于内存厂商来说,随之而来的设计复杂性是巨大的。


制造:良率至关重要


TSV形成

TSV是在硅晶圆上蚀刻出一个垂直孔,并填充铜。其直径只有几微米,纵横比(深度与宽度之比)很高,因此蚀刻和电镀步骤都容易出现缺陷。

一个12层HBM堆叠结构包含数百万个TSV(硅通孔)。一个连接不良就意味着芯片报废。TSV的良率控制难度远高于传统的DRAM制造工艺,因此HBM供应商会在其设计中内置TSV修复方案,以最大限度地减少单个故障造成的损失。

晶圆减薄

为了堆叠芯片,每个晶圆都必须被研磨到极薄的厚度。一个12层HBM所需的芯片厚度约为50微米。而要达到16层,则需要将厚度减至30微米——不到人类头发丝厚度的一半。

在这种厚度下,晶圆容易开裂,并在自身应力作用下发生弯曲。弯曲的晶圆无法以HBM所需的精度进行键合。JEDEC封装高度限制随着每一代技术的进步而不断收紧,因此,随着层数的增加,减薄每个芯片的压力只会越来越大。一些HBM4讨论中提到的775微米数值反映的是草案规范,并非最终的JEDEC标准。

HBM消耗的晶圆产能远高于标准DRAM

按比特计算,HBM消耗的晶圆面积大约是传统DRAM的两到三倍。这是基于芯片尺寸和工艺开销的行业估算,并非精确的公开数据——但其方向性影响是真实的。当晶圆厂将产能分配给HBM时,DDR5、LPDDR和GDDR7的产能都会受到挤压。这些市场目前的紧张局面是这种权衡的结构性结果,而非规划失误。


测试:堆叠前难度大,堆叠后难度更大


晶圆级老化测试

DRAM 晶圆出厂后,第一步是老化测试——在高温高压下运行芯片,以筛选出早期失效的芯片。接下来是低速和高速功能测试。到目前为止,这与标准的 DRAM 生产流程类似。真正的挑战才刚刚开始。

KGD:不可或缺的关键环节

标准DRAM的缺陷在于单个封装层面。一个坏芯片,整套设备就报废。HBM则不同。由于HBM是将12个芯片堆叠在一起,因此每个芯片在组装前都必须经过验证。这被称为“已知良品芯片测试”(Known Good Die testing,KGD),其背后的数学原理解释了它为何如此重要。

假设单个芯片的良率为99%。对于单个芯片来说,这没问题。但如果堆叠12个芯片,那么所有12个芯片都合格的概率就会下降到88.6%。如果单个芯片的良率降至97%,那么12层堆叠的良率就只有69.4%。堆叠中每个坏芯片都会拖累周围所有合格芯片的良率。正是这种成本结构使得KGD测试值得投资。

测试本身也并非易事。切割后的芯片厚度为30到50微米——非常脆弱,稍有不慎就可能破裂。因此,需要使用专门的芯片级处理设备。随着每一代产品的迭代,探针卡的间距都在缩小,一套测试设备的成本可能高达数千万韩元。测试覆盖率和测试时间之间的权衡会带来切实的后果:覆盖率过低会导致缺陷进入封装,覆盖率过高则会导致吞吐量下降。

封装后测试

芯片堆叠并通过TSV连接后,一系列全新的问题随之而来。随着层数的增加,验证键合对准和互连完整性的难度呈指数级增长。完全依靠外部测试访问,将缺陷定位到12层封装中的特定芯片、组和行,其难度正如想象的那样巨大。

最终封装测试在此基础上增加了高速功能测试,许多厂商现在会依次运行ATE和系统级测试。在完整封装完成后发现缺陷的成本足以证明这种冗余测试的必要性。

测试基础设施滞后于产品周期

从 8 层到 12 层再到 16 层,测试时间成比例增加。但 HBM 的更新换代速度比传统 DRAM 更快。测试程序开发、探针卡设计以及 BIST IP 更新都必须在产品发布前完成。当像 NVIDIA 这样的客户修改其接口规范时,测试条件必须从头开始重建。这种基础设施负担使得测试成本在 HBM 总制造成本中占据了相当大的比例。


封装:半导体史上最精密的组装工艺


微凸点对准

芯片通过微凸点逐层连接。HBM3E 的凸点间距约为 25 微米。预计 16 层的 HBM4 将把凸点间距缩小到 16 至 18 微米。

如果凸点错位,连接就会失效。HBM PHY 信号路径中没有凸点间的冗余重路由——每个信号都精确地映射到一个凸点。如果该凸点发生故障,它所服务的整个通道都会失效。HBM3E 有八个通道,因此单个凸点的故障不会立即导致整个堆栈崩溃,但失效的通道意味着带宽降低,在数据中心工作负载环境下,GPU 以部分内存带宽运行实际上无法使用。

MR-MUF、NCF 和混合键合

SK 海力士采用 MR-MUF(Mass Reflow Molded Underfill)技术,该技术具有出色的散热性能,并且是目前生产环境中最成熟的方案。三星采用非导电薄膜 (NCF:Non-Conductive Film) 结合热压键合技术,在小间距下可实现更高的精度。

长远发展方向是混合键合,它可以完全消除凸点。该技术已应用于堆叠式 CMOS 图像传感器的生产。HBM 面临的挑战在于 TSV 集成和层数的结合——在 12 层或更多层上应用混合键合技术会带来新的良率、计量和长期可靠性问题,这些问题在量产规模下仍未得到解决。

翘曲

随着层数的增加,芯片间热膨胀系数的累积差异会在整个封装中产生机械应力。其结果是翘曲——封装出现弯曲,并且每增加一层都会加剧翘曲。仿真数据始终表明,随着层数的增加,残余应力也会增加,而这种应力会影响下游组装和现场可靠性。

CoWoS:比die寿命更大的瓶颈

完成 HBM 堆叠并不意味着一切的结束。 HBM芯片仍需通过台积电的CoWoS工艺集成到硅中介层上的GPU或ASIC芯片中。目前,台积电的CoWoS产能已售罄至2026年。这一瓶颈是整个AI芯片供应链中最紧缺的环节。


交付之后:发货并不意味着万事大吉


HBM 以独立组件的形式交付给客户——包括 NVIDIA、AMD、Google 等公司。客户将其与 GPU 或 ASIC 一起组装成 2.5D SiP 封装。而这仅仅是新问题的开始。

客户组装过程中的热应力

客户的封装工艺包含回流焊热处理,这会对HBM堆叠内部的微凸块和底部填充物施加额外的热应力。即使内存供应商工厂通过了所有测试,部件在经过客户的组装线后仍可能出现问题。这种情况时有发生。

现场三种失效机制

在全天候满负荷运行的数据中心中,三种性能退化机制同时发挥作用。电迁移会在持续高电流密度下使金属原子沿着细互连线移动。热循环会通过反复的温度波动使互连线疲劳。蠕变会在长时间高温机械载荷下使焊点变形。勉强通过认证的产品——并非优势明显,只是勉强合格——可能会在发货数月甚至数年后悄无声息地在现场发生故障。

封装后修复 (PPR) 和预测性维护

HBM规范包含封装后修复 (PPR) 功能,允许用备用芯片替换故障芯片。当缺陷被隔离且备用预算尚未耗尽时,PPR 功能有效。对于随着时间推移而累积的物理损坏,硬件更换最终是唯一的解决方案。

这种局限性正推动行业向预测性维护转型——在正常运行期间持续监测信号质量,以便在性能下降演变为系统故障之前将其检测出来。Synopsys 和 ProteanTecs 等公司都在致力于开发这方面的解决方案。

我亲身经历过这种情况。当产品层面出现与 HBM 相关的故障时,你会立即遇到三大难题。

首先是归因问题。这是 HBM 故障还是 GPU 故障?由于两者集成在同一个封装中,无法进行内部探测。你只能从症状入手,试图反向推断故障原因。

其次是测试方法。即使你已经将故障范围缩小到 HBM,你仍然需要找到在系统层面重新测试的方法。内存供应商在发货前使用的测试环境与客户在成品 SiP 上可以使用的环境截然不同。没有现成的方案可循。你必须在时间压力下从零开始构建测试方法。

第三是与供应商的沟通。要想从内存供应商那里获得有效的分析,就必须以他们能够处理的格式提供正确的数据。这种接口——共享哪些信息,采用何种结构——很少事先确定。而且,供应商自身的现场支持能力也有限。一旦生产环节出现问题,真正能够提供帮助的工程师往往人手不足。因此,这种级别的现场故障会造成双方大量的时间和资源浪费。


结论:HBM为何如此昂贵且稀缺


如果要用一句话概括HBM为何如此难产,那就是:它是半导体价值链中唯一一个每个环节都同时面临最高难度的产品。

即便克服了所有这些挑战,最终成功生产出HBM,还需要经过CoWoS封装才能获得成品——而这条生产线的产能已经排到了2026年。

这就是HBM价格昂贵、稀缺以及存储器公司股价持续上涨的原因。

免责声明:投资有风险,本文并非投资建议,以上内容不应被视为任何金融产品的购买或出售要约、建议或邀请,作者或其他用户的任何相关讨论、评论或帖子也不应被视为此类内容。本文仅供一般参考,不考虑您的个人投资目标、财务状况或需求。TTM对信息的准确性和完整性不承担任何责任或保证,投资者应自行研究并在投资前寻求专业建议。

热议股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10