HBM，為何那麼貴？

現在，HBM（高顯存顯存）幾乎成了人們熱議的話題。股票論壇、新聞媒體、甚至餐桌上，到處都在談論它——「HBM 供應短缺」或者「NVIDIA 因為 HBM 的緣故，GPU 產能不足」。

但幾乎沒有人解釋它究竟難在哪裏。大多數報道都止步於「他們用 TSV（硅通孔）堆疊芯片」或者「微凸點必須完美對齊」。這算不上解釋，只是簡單的說明而已。

本文將詳細介紹 HBM 生產的每個階段——設計、製造、測試、封裝——並解釋每個階段的真正難點所在。文章還會涵蓋產品交付給客戶之後的情況，因為那纔是真正出乎意料的有趣之處。本文所有內容均基於親身經歷和公開的技術資料。

設計：不僅僅是堆疊式DRAM

總線寬度問題

標準的DDR5接口寬度為64位。HBM3E的運行寬度為1024位。HBM4則將其提升至2048位。更寬的總線寬度不僅僅意味着更多的導線——每個I/O引腳都需要獨立的信號通路，而且考慮到電源和控制信號，單個HBM3E或HBM4堆疊就需要與相鄰的GPU建立超過一千個連接。

你無法在PCB上實現這種佈線。幾何結構不兼容。這就是硅中介層存在的根本原因，也是像CoWoS這樣的2.5D封裝不可或缺的原因。我們稍後會詳細討論這一點。

通過TSV進行電源分配

HBM中最容易被忽視的設計挑戰之一是電源分配網絡。通過TSV為12或16個堆疊芯片提供純淨電源確實非常困難——在刷新操作等高電流事件期間，上層芯片的電壓下降會成為一個嚴重的問題。

公司如何安排其TSV佈局以進行管理是內存廠商之間核心的專有技術差異化因素之一。它直接決定良率和性能，因此無人公開相關信息。

HBM4的邏輯基片

HBM4改變了遊戲規則。前幾代產品均採用DRAM工藝技術。HBM4的基片（堆疊結構的底層）將採用代工廠級邏輯工藝製造，行業報告指出台積電的12nm工藝和三星的SF級工藝節點均有可能採用。具體的節點規格仍需各公司官方發布公告。

更重要的是，這種基礎芯片可以承載客戶定製的邏輯電路。這意味着NVIDIA的HBM4和AMD的HBM4在物理結構上將是不同的產品。內存正在從通用組件向半定製組件過渡，而對於內存廠商來說，隨之而來的設計複雜性是巨大的。

製造：良率至關重要

TSV形成

TSV是在硅晶圓上蝕刻出一個垂直孔，並填充銅。其直徑只有幾微米，縱橫比（深度與寬度之比）很高，因此蝕刻和電鍍步驟都容易出現缺陷。

一個12層HBM堆疊結構包含數百萬個TSV（硅通孔）。一個連接不良就意味着芯片報廢。TSV的良率控制難度遠高於傳統的DRAM製造工藝，因此HBM供應商會在其設計中內置TSV修復方案，以最大限度地減少單個故障造成的損失。

晶圓減薄

為了堆疊芯片，每個晶圓都必須被研磨到極薄的厚度。一個12層HBM所需的芯片厚度約為50微米。而要達到16層，則需要將厚度減至30微米——不到人類頭髮絲厚度的一半。

在這種厚度下，晶圓容易開裂，並在自身應力作用下發生彎曲。彎曲的晶圓無法以HBM所需的精度進行鍵合。JEDEC封裝高度限制隨着每一代技術的進步而不斷收緊，因此，隨着層數的增加，減薄每個芯片的壓力只會越來越大。一些HBM4討論中提到的775微米數值反映的是草案規範，並非最終的JEDEC標準。

HBM消耗的晶圓產能遠高於標準DRAM

按比特計算，HBM消耗的晶圓面積大約是傳統DRAM的兩到三倍。這是基於芯片尺寸和工藝開銷的行業估算，並非精確的公開數據——但其方向性影響是真實的。當晶圓廠將產能分配給HBM時，DDR5、LPDDR和GDDR7的產能都會受到擠壓。這些市場目前的緊張局面是這種權衡的結構性結果，而非規劃失誤。

測試：堆疊前難度大，堆疊後難度更大

晶圓級老化測試

DRAM 晶圓出廠後，第一步是老化測試——在高溫高壓下運行芯片，以篩選出早期失效的芯片。接下來是低速和高速功能測試。到目前為止，這與標準的 DRAM 生產流程類似。真正的挑戰才啱啱開始。

KGD：不可或缺的關鍵環節

標準DRAM的缺陷在於單個封裝層面。一個壞芯片，整套設備就報廢。HBM則不同。由於HBM是將12個芯片堆疊在一起，因此每個芯片在組裝前都必須經過驗證。這被稱為「已知良品芯片測試」（Known Good Die testing，KGD），其背後的數學原理解釋了它為何如此重要。

假設單個芯片的良率為99%。對於單個芯片來說，這沒問題。但如果堆疊12個芯片，那麼所有12個芯片都合格的概率就會下降到88.6%。如果單個芯片的良率降至97%，那麼12層堆疊的良率就只有69.4%。堆疊中每個壞芯片都會拖累周圍所有合格芯片的良率。正是這種成本結構使得KGD測試值得投資。

測試本身也並非易事。切割後的芯片厚度為30到50微米——非常脆弱，稍有不慎就可能破裂。因此，需要使用專門的芯片級處理設備。隨着每一代產品的迭代，探針卡的間距都在縮小，一套測試設備的成本可能高達數千萬韓元。測試覆蓋率和測試時間之間的權衡會帶來切實的後果：覆蓋率過低會導致缺陷進入封裝，覆蓋率過高則會導致吞吐量下降。

封裝後測試

芯片堆疊並通過TSV連接後，一系列全新的問題隨之而來。隨着層數的增加，驗證鍵合對準和互連完整性的難度呈指數級增長。完全依靠外部測試訪問，將缺陷定位到12層封裝中的特定芯片、組和行，其難度正如想象的那樣巨大。

最終封裝測試在此基礎上增加了高速功能測試，許多廠商現在會依次運行ATE和系統級測試。在完整封裝完成後發現缺陷的成本足以證明這種冗餘測試的必要性。

測試基礎設施滯後於產品周期

從 8 層到 12 層再到 16 層，測試時間成比例增加。但 HBM 的更新換代速度比傳統 DRAM 更快。測試程序開發、探針卡設計以及 BIST IP 更新都必須在產品發布前完成。當像 NVIDIA 這樣的客戶修改其接口規範時，測試條件必須從頭開始重建。這種基礎設施負擔使得測試成本在 HBM 總製造成本中佔據了相當大的比例。

封裝：半導體史上最精密的組裝工藝

微凸點對準

芯片通過微凸點逐層連接。HBM3E 的凸點間距約為 25 微米。預計 16 層的 HBM4 將把凸點間距縮小到 16 至 18 微米。

如果凸點錯位，連接就會失效。HBM PHY 信號路徑中沒有凸點間的冗餘重路由——每個信號都精確地映射到一個凸點。如果該凸點發生故障，它所服務的整個通道都會失效。HBM3E 有八個通道，因此單個凸點的故障不會立即導致整個堆棧崩潰，但失效的通道意味着帶寬降低，在數據中心工作負載環境下，GPU 以部分內存帶寬運行實際上無法使用。

MR-MUF、NCF 和混合鍵合

SK 海力士採用 MR-MUF（Mass Reflow Molded Underfill）技術，該技術具有出色的散熱性能，並且是目前生產環境中最成熟的方案。三星採用非導電薄膜 (NCF：Non-Conductive Film) 結合熱壓鍵合技術，在小間距下可實現更高的精度。

長遠發展方向是混合鍵合，它可以完全消除凸點。該技術已應用於堆疊式 CMOS 圖像傳感器的生產。HBM 面臨的挑戰在於 TSV 集成和層數的結合——在 12 層或更多層上應用混合鍵合技術會帶來新的良率、計量和長期可靠性問題，這些問題在量產規模下仍未得到解決。

翹曲

隨着層數的增加，芯片間熱膨脹係數的累積差異會在整個封裝中產生機械應力。其結果是翹曲——封裝出現彎曲，並且每增加一層都會加劇翹曲。仿真數據始終表明，隨着層數的增加，殘餘應力也會增加，而這種應力會影響下游組裝和現場可靠性。

CoWoS：比die壽命更大的瓶頸

完成 HBM 堆疊並不意味着一切的結束。 HBM芯片仍需通過台積電的CoWoS工藝集成到硅中介層上的GPU或ASIC芯片中。目前，台積電的CoWoS產能已售罄至2026年。這一瓶頸是整個AI芯片供應鏈中最緊缺的環節。

交付之後：發貨並不意味着萬事大吉

HBM 以獨立組件的形式交付給客戶——包括 NVIDIA、AMD、Google 等公司。客戶將其與 GPU 或 ASIC 一起組裝成 2.5D SiP 封裝。而這僅僅是新問題的開始。

客戶組裝過程中的熱應力

客戶的封裝工藝包含迴流焊熱處理，這會對HBM堆疊內部的微凸塊和底部填充物施加額外的熱應力。即使內存供應商工廠通過了所有測試，部件在經過客戶的組裝線後仍可能出現問題。這種情況時有發生。

現場三種失效機制

在全天候滿負荷運行的數據中心中，三種性能退化機制同時發揮作用。電遷移會在持續高電流密度下使金屬原子沿着細互連線移動。熱循環會通過反覆的溫度波動使互連線疲勞。蠕變會在長時間高溫機械載荷下使焊點變形。勉強通過認證的產品——並非優勢明顯，只是勉強合格——可能會在發貨數月甚至數年後悄無聲息地在現場發生故障。

封裝後修復 (PPR) 和預測性維護

HBM規範包含封裝後修復 (PPR) 功能，允許用備用芯片替換故障芯片。當缺陷被隔離且備用預算尚未耗盡時，PPR 功能有效。對於隨着時間推移而累積的物理損壞，硬件更換最終是唯一的解決方案。

這種侷限性正推動行業向預測性維護轉型——在正常運行期間持續監測信號質量，以便在性能下降演變為系統故障之前將其檢測出來。Synopsys 和 ProteanTecs 等公司都在致力於開發這方面的解決方案。

我親身經歷過這種情況。當產品層面出現與 HBM 相關的故障時，你會立即遇到三大難題。

首先是歸因問題。這是 HBM 故障還是 GPU 故障？由於兩者集成在同一個封裝中，無法進行內部探測。你只能從症狀入手，試圖反向推斷故障原因。

其次是測試方法。即使你已經將故障範圍縮小到 HBM，你仍然需要找到在系統層面重新測試的方法。內存供應商在發貨前使用的測試環境與客戶在成品 SiP 上可以使用的環境截然不同。沒有現成的方案可循。你必須在時間壓力下從零開始構建測試方法。

第三是與供應商的溝通。要想從內存供應商那裏獲得有效的分析，就必須以他們能夠處理的格式提供正確的數據。這種接口——共享哪些信息，採用何種結構——很少事先確定。而且，供應商自身的現場支持能力也有限。一旦生產環節出現問題，真正能夠提供幫助的工程師往往人手不足。因此，這種級別的現場故障會造成雙方大量的時間和資源浪費。

結論：HBM為何如此昂貴且稀缺

如果要用一句話概括HBM為何如此難產，那就是：它是半導體價值鏈中唯一一個每個環節都同時面臨最高難度的產品。

即便克服了所有這些挑戰，最終成功生產出HBM，還需要經過CoWoS封裝才能獲得成品——而這條生產線的產能已經排到了2026年。

這就是HBM價格昂貴、稀缺以及存儲器公司股價持續上漲的原因。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券