HBM,为何那么贵?

格隆汇
Yesterday

现在,HBM(高显存显存)几乎成了人们热议的话题。股票论坛、新闻媒体、甚至餐桌上,到处都在谈论它——“HBM 供应短缺”或者“NVIDIA 因为 HBM 的缘故,GPU 产能不足”。

但几乎没有人解释它究竟难在哪里。大多数报道都止步于“他们用 TSV(硅通孔)堆叠芯片”或者“微凸点必须完美对齐”。这算不上解释,只是简单的说明而已。

本文将详细介绍 HBM 生产的每个阶段——设计、制造、测试、封装——并解释每个阶段的真正难点所在。文章还会涵盖产品交付给客户之后的情况,因为那才是真正出乎意料的有趣之处。本文所有内容均基于亲身经历和公开的技术资料。


设计:不仅仅是堆叠式DRAM


总线宽度问题

标准的DDR5接口宽度为64位。HBM3E的运行宽度为1024位。HBM4则将其提升至2048位。更宽的总线宽度不仅仅意味着更多的导线——每个I/O引脚都需要独立的信号通路,而且考虑到电源和控制信号,单个HBM3E或HBM4堆叠就需要与相邻的GPU建立超过一千个连接。

你无法在PCB上实现这种布线。几何结构不兼容。这就是硅中介层存在的根本原因,也是像CoWoS这样的2.5D封装不可或缺的原因。我们稍后会详细讨论这一点。

通过TSV进行电源分配

HBM中最容易被忽视的设计挑战之一是电源分配网络。通过TSV为12或16个堆叠芯片提供纯净电源确实非常困难——在刷新操作等高电流事件期间,上层芯片的电压下降会成为一个严重的问题。

公司如何安排其TSV布局以进行管理是内存厂商之间核心的专有技术差异化因素之一。它直接决定良率和性能,因此无人公开相关信息。

HBM4的逻辑基片

HBM4改变了游戏规则。前几代产品均采用DRAM工艺技术。HBM4的基片(堆叠结构的底层)将采用代工厂级逻辑工艺制造,行业报告指出台积电的12nm工艺和三星的SF级工艺节点均有可能采用。具体的节点规格仍需各公司官方发布公告。

更重要的是,这种基础芯片可以承载客户定制的逻辑电路。这意味着NVIDIA的HBM4和AMD的HBM4在物理结构上将是不同的产品。内存正在从通用组件向半定制组件过渡,而对于内存厂商来说,随之而来的设计复杂性是巨大的。


制造:良率至关重要


TSV形成

TSV是在硅晶圆上蚀刻出一个垂直孔,并填充铜。其直径只有几微米,纵横比(深度与宽度之比)很高,因此蚀刻和电镀步骤都容易出现缺陷。

一个12层HBM堆叠结构包含数百万个TSV(硅通孔)。一个连接不良就意味着芯片报废。TSV的良率控制难度远高于传统的DRAM制造工艺,因此HBM供应商会在其设计中内置TSV修复方案,以最大限度地减少单个故障造成的损失。

晶圆减薄

为了堆叠芯片,每个晶圆都必须被研磨到极薄的厚度。一个12层HBM所需的芯片厚度约为50微米。而要达到16层,则需要将厚度减至30微米——不到人类头发丝厚度的一半。

在这种厚度下,晶圆容易开裂,并在自身应力作用下发生弯曲。弯曲的晶圆无法以HBM所需的精度进行键合。JEDEC封装高度限制随着每一代技术的进步而不断收紧,因此,随着层数的增加,减薄每个芯片的压力只会越来越大。一些HBM4讨论中提到的775微米数值反映的是草案规范,并非最终的JEDEC标准。

HBM消耗的晶圆产能远高于标准DRAM

按比特计算,HBM消耗的晶圆面积大约是传统DRAM的两到三倍。这是基于芯片尺寸和工艺开销的行业估算,并非精确的公开数据——但其方向性影响是真实的。当晶圆厂将产能分配给HBM时,DDR5、LPDDR和GDDR7的产能都会受到挤压。这些市场目前的紧张局面是这种权衡的结构性结果,而非规划失误。


测试:堆叠前难度大,堆叠后难度更大


晶圆级老化测试

DRAM 晶圆出厂后,第一步是老化测试——在高温高压下运行芯片,以筛选出早期失效的芯片。接下来是低速和高速功能测试。到目前为止,这与标准的 DRAM 生产流程类似。真正的挑战才刚刚开始。

KGD:不可或缺的关键环节

标准DRAM的缺陷在于单个封装层面。一个坏芯片,整套设备就报废。HBM则不同。由于HBM是将12个芯片堆叠在一起,因此每个芯片在组装前都必须经过验证。这被称为“已知良品芯片测试”(Known Good Die testing,KGD),其背后的数学原理解释了它为何如此重要。

假设单个芯片的良率为99%。对于单个芯片来说,这没问题。但如果堆叠12个芯片,那么所有12个芯片都合格的概率就会下降到88.6%。如果单个芯片的良率降至97%,那么12层堆叠的良率就只有69.4%。堆叠中每个坏芯片都会拖累周围所有合格芯片的良率。正是这种成本结构使得KGD测试值得投资。

测试本身也并非易事。切割后的芯片厚度为30到50微米——非常脆弱,稍有不慎就可能破裂。因此,需要使用专门的芯片级处理设备。随着每一代产品的迭代,探针卡的间距都在缩小,一套测试设备的成本可能高达数千万韩元。测试覆盖率和测试时间之间的权衡会带来切实的后果:覆盖率过低会导致缺陷进入封装,覆盖率过高则会导致吞吐量下降。

封装后测试

芯片堆叠并通过TSV连接后,一系列全新的问题随之而来。随着层数的增加,验证键合对准和互连完整性的难度呈指数级增长。完全依靠外部测试访问,将缺陷定位到12层封装中的特定芯片、组和行,其难度正如想象的那样巨大。

最终封装测试在此基础上增加了高速功能测试,许多厂商现在会依次运行ATE和系统级测试。在完整封装完成后发现缺陷的成本足以证明这种冗余测试的必要性。

测试基础设施滞后于产品周期

从 8 层到 12 层再到 16 层,测试时间成比例增加。但 HBM 的更新换代速度比传统 DRAM 更快。测试程序开发、探针卡设计以及 BIST IP 更新都必须在产品发布前完成。当像 NVIDIA 这样的客户修改其接口规范时,测试条件必须从头开始重建。这种基础设施负担使得测试成本在 HBM 总制造成本中占据了相当大的比例。


封装:半导体史上最精密的组装工艺


微凸点对准

芯片通过微凸点逐层连接。HBM3E 的凸点间距约为 25 微米。预计 16 层的 HBM4 将把凸点间距缩小到 16 至 18 微米。

如果凸点错位,连接就会失效。HBM PHY 信号路径中没有凸点间的冗余重路由——每个信号都精确地映射到一个凸点。如果该凸点发生故障,它所服务的整个通道都会失效。HBM3E 有八个通道,因此单个凸点的故障不会立即导致整个堆栈崩溃,但失效的通道意味着带宽降低,在数据中心工作负载环境下,GPU 以部分内存带宽运行实际上无法使用。

MR-MUF、NCF 和混合键合

SK 海力士采用 MR-MUF(Mass Reflow Molded Underfill)技术,该技术具有出色的散热性能,并且是目前生产环境中最成熟的方案。三星采用非导电薄膜 (NCF:Non-Conductive Film) 结合热压键合技术,在小间距下可实现更高的精度。

长远发展方向是混合键合,它可以完全消除凸点。该技术已应用于堆叠式 CMOS 图像传感器的生产。HBM 面临的挑战在于 TSV 集成和层数的结合——在 12 层或更多层上应用混合键合技术会带来新的良率、计量和长期可靠性问题,这些问题在量产规模下仍未得到解决。

翘曲

随着层数的增加,芯片间热膨胀系数的累积差异会在整个封装中产生机械应力。其结果是翘曲——封装出现弯曲,并且每增加一层都会加剧翘曲。仿真数据始终表明,随着层数的增加,残余应力也会增加,而这种应力会影响下游组装和现场可靠性。

CoWoS:比die寿命更大的瓶颈

完成 HBM 堆叠并不意味着一切的结束。 HBM芯片仍需通过台积电的CoWoS工艺集成到硅中介层上的GPU或ASIC芯片中。目前,台积电的CoWoS产能已售罄至2026年。这一瓶颈是整个AI芯片供应链中最紧缺的环节。


交付之后:发货并不意味着万事大吉


HBM 以独立组件的形式交付给客户——包括 NVIDIA、AMD、Google 等公司。客户将其与 GPU 或 ASIC 一起组装成 2.5D SiP 封装。而这仅仅是新问题的开始。

客户组装过程中的热应力

客户的封装工艺包含回流焊热处理,这会对HBM堆叠内部的微凸块和底部填充物施加额外的热应力。即使内存供应商工厂通过了所有测试,部件在经过客户的组装线后仍可能出现问题。这种情况时有发生。

现场三种失效机制

在全天候满负荷运行的数据中心中,三种性能退化机制同时发挥作用。电迁移会在持续高电流密度下使金属原子沿着细互连线移动。热循环会通过反复的温度波动使互连线疲劳。蠕变会在长时间高温机械载荷下使焊点变形。勉强通过认证的产品——并非优势明显,只是勉强合格——可能会在发货数月甚至数年后悄无声息地在现场发生故障。

封装后修复 (PPR) 和预测性维护

HBM规范包含封装后修复 (PPR) 功能,允许用备用芯片替换故障芯片。当缺陷被隔离且备用预算尚未耗尽时,PPR 功能有效。对于随着时间推移而累积的物理损坏,硬件更换最终是唯一的解决方案。

这种局限性正推动行业向预测性维护转型——在正常运行期间持续监测信号质量,以便在性能下降演变为系统故障之前将其检测出来。Synopsys 和 ProteanTecs 等公司都在致力于开发这方面的解决方案。

我亲身经历过这种情况。当产品层面出现与 HBM 相关的故障时,你会立即遇到三大难题。

首先是归因问题。这是 HBM 故障还是 GPU 故障?由于两者集成在同一个封装中,无法进行内部探测。你只能从症状入手,试图反向推断故障原因。

其次是测试方法。即使你已经将故障范围缩小到 HBM,你仍然需要找到在系统层面重新测试的方法。内存供应商在发货前使用的测试环境与客户在成品 SiP 上可以使用的环境截然不同。没有现成的方案可循。你必须在时间压力下从零开始构建测试方法。

第三是与供应商的沟通。要想从内存供应商那里获得有效的分析,就必须以他们能够处理的格式提供正确的数据。这种接口——共享哪些信息,采用何种结构——很少事先确定。而且,供应商自身的现场支持能力也有限。一旦生产环节出现问题,真正能够提供帮助的工程师往往人手不足。因此,这种级别的现场故障会造成双方大量的时间和资源浪费。


结论:HBM为何如此昂贵且稀缺


如果要用一句话概括HBM为何如此难产,那就是:它是半导体价值链中唯一一个每个环节都同时面临最高难度的产品。

即便克服了所有这些挑战,最终成功生产出HBM,还需要经过CoWoS封装才能获得成品——而这条生产线的产能已经排到了2026年。

这就是HBM价格昂贵、稀缺以及存储器公司股价持续上涨的原因。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10