HBM,為何那麼貴?

格隆匯
03/10

現在,HBM(高顯存顯存)幾乎成了人們熱議的話題。股票論壇、新聞媒體、甚至餐桌上,到處都在談論它——「HBM 供應短缺」或者「NVIDIA 因為 HBM 的緣故,GPU 產能不足」。

但幾乎沒有人解釋它究竟難在哪裏。大多數報道都止步於「他們用 TSV(硅通孔)堆疊芯片」或者「微凸點必須完美對齊」。這算不上解釋,只是簡單的說明而已。

本文將詳細介紹 HBM 生產的每個階段——設計、製造、測試、封裝——並解釋每個階段的真正難點所在。文章還會涵蓋產品交付給客戶之後的情況,因為那纔是真正出乎意料的有趣之處。本文所有內容均基於親身經歷和公開的技術資料。


設計:不僅僅是堆疊式DRAM


總線寬度問題

標準的DDR5接口寬度為64位。HBM3E的運行寬度為1024位。HBM4則將其提升至2048位。更寬的總線寬度不僅僅意味着更多的導線——每個I/O引腳都需要獨立的信號通路,而且考慮到電源和控制信號,單個HBM3E或HBM4堆疊就需要與相鄰的GPU建立超過一千個連接。

你無法在PCB上實現這種佈線。幾何結構不兼容。這就是硅中介層存在的根本原因,也是像CoWoS這樣的2.5D封裝不可或缺的原因。我們稍後會詳細討論這一點。

通過TSV進行電源分配

HBM中最容易被忽視的設計挑戰之一是電源分配網絡。通過TSV為12或16個堆疊芯片提供純淨電源確實非常困難——在刷新操作等高電流事件期間,上層芯片的電壓下降會成為一個嚴重的問題。

公司如何安排其TSV佈局以進行管理是內存廠商之間核心的專有技術差異化因素之一。它直接決定良率和性能,因此無人公開相關信息。

HBM4的邏輯基片

HBM4改變了遊戲規則。前幾代產品均採用DRAM工藝技術。HBM4的基片(堆疊結構的底層)將採用代工廠級邏輯工藝製造,行業報告指出台積電的12nm工藝和三星的SF級工藝節點均有可能採用。具體的節點規格仍需各公司官方發布公告。

更重要的是,這種基礎芯片可以承載客戶定製的邏輯電路。這意味着NVIDIA的HBM4和AMD的HBM4在物理結構上將是不同的產品。內存正在從通用組件向半定製組件過渡,而對於內存廠商來說,隨之而來的設計複雜性是巨大的。


製造:良率至關重要


TSV形成

TSV是在硅晶圓上蝕刻出一個垂直孔,並填充銅。其直徑只有幾微米,縱橫比(深度與寬度之比)很高,因此蝕刻和電鍍步驟都容易出現缺陷。

一個12層HBM堆疊結構包含數百萬個TSV(硅通孔)。一個連接不良就意味着芯片報廢。TSV的良率控制難度遠高於傳統的DRAM製造工藝,因此HBM供應商會在其設計中內置TSV修復方案,以最大限度地減少單個故障造成的損失。

晶圓減薄

為了堆疊芯片,每個晶圓都必須被研磨到極薄的厚度。一個12層HBM所需的芯片厚度約為50微米。而要達到16層,則需要將厚度減至30微米——不到人類頭髮絲厚度的一半。

在這種厚度下,晶圓容易開裂,並在自身應力作用下發生彎曲。彎曲的晶圓無法以HBM所需的精度進行鍵合。JEDEC封裝高度限制隨着每一代技術的進步而不斷收緊,因此,隨着層數的增加,減薄每個芯片的壓力只會越來越大。一些HBM4討論中提到的775微米數值反映的是草案規範,並非最終的JEDEC標準。

HBM消耗的晶圓產能遠高於標準DRAM

按比特計算,HBM消耗的晶圓面積大約是傳統DRAM的兩到三倍。這是基於芯片尺寸和工藝開銷的行業估算,並非精確的公開數據——但其方向性影響是真實的。當晶圓廠將產能分配給HBM時,DDR5、LPDDR和GDDR7的產能都會受到擠壓。這些市場目前的緊張局面是這種權衡的結構性結果,而非規劃失誤。


測試:堆疊前難度大,堆疊後難度更大


晶圓級老化測試

DRAM 晶圓出廠後,第一步是老化測試——在高溫高壓下運行芯片,以篩選出早期失效的芯片。接下來是低速和高速功能測試。到目前為止,這與標準的 DRAM 生產流程類似。真正的挑戰才啱啱開始。

KGD:不可或缺的關鍵環節

標準DRAM的缺陷在於單個封裝層面。一個壞芯片,整套設備就報廢。HBM則不同。由於HBM是將12個芯片堆疊在一起,因此每個芯片在組裝前都必須經過驗證。這被稱為「已知良品芯片測試」(Known Good Die testing,KGD),其背後的數學原理解釋了它為何如此重要。

假設單個芯片的良率為99%。對於單個芯片來說,這沒問題。但如果堆疊12個芯片,那麼所有12個芯片都合格的概率就會下降到88.6%。如果單個芯片的良率降至97%,那麼12層堆疊的良率就只有69.4%。堆疊中每個壞芯片都會拖累周圍所有合格芯片的良率。正是這種成本結構使得KGD測試值得投資。

測試本身也並非易事。切割後的芯片厚度為30到50微米——非常脆弱,稍有不慎就可能破裂。因此,需要使用專門的芯片級處理設備。隨着每一代產品的迭代,探針卡的間距都在縮小,一套測試設備的成本可能高達數千萬韓元。測試覆蓋率和測試時間之間的權衡會帶來切實的後果:覆蓋率過低會導致缺陷進入封裝,覆蓋率過高則會導致吞吐量下降。

封裝後測試

芯片堆疊並通過TSV連接後,一系列全新的問題隨之而來。隨着層數的增加,驗證鍵合對準和互連完整性的難度呈指數級增長。完全依靠外部測試訪問,將缺陷定位到12層封裝中的特定芯片、組和行,其難度正如想象的那樣巨大。

最終封裝測試在此基礎上增加了高速功能測試,許多廠商現在會依次運行ATE和系統級測試。在完整封裝完成後發現缺陷的成本足以證明這種冗餘測試的必要性。

測試基礎設施滯後於產品周期

從 8 層到 12 層再到 16 層,測試時間成比例增加。但 HBM 的更新換代速度比傳統 DRAM 更快。測試程序開發、探針卡設計以及 BIST IP 更新都必須在產品發布前完成。當像 NVIDIA 這樣的客戶修改其接口規範時,測試條件必須從頭開始重建。這種基礎設施負擔使得測試成本在 HBM 總製造成本中佔據了相當大的比例。


封裝:半導體史上最精密的組裝工藝


微凸點對準

芯片通過微凸點逐層連接。HBM3E 的凸點間距約為 25 微米。預計 16 層的 HBM4 將把凸點間距縮小到 16 至 18 微米。

如果凸點錯位,連接就會失效。HBM PHY 信號路徑中沒有凸點間的冗餘重路由——每個信號都精確地映射到一個凸點。如果該凸點發生故障,它所服務的整個通道都會失效。HBM3E 有八個通道,因此單個凸點的故障不會立即導致整個堆棧崩潰,但失效的通道意味着帶寬降低,在數據中心工作負載環境下,GPU 以部分內存帶寬運行實際上無法使用。

MR-MUF、NCF 和混合鍵合

SK 海力士採用 MR-MUF(Mass Reflow Molded Underfill)技術,該技術具有出色的散熱性能,並且是目前生產環境中最成熟的方案。三星採用非導電薄膜 (NCF:Non-Conductive Film) 結合熱壓鍵合技術,在小間距下可實現更高的精度。

長遠發展方向是混合鍵合,它可以完全消除凸點。該技術已應用於堆疊式 CMOS 圖像傳感器的生產。HBM 面臨的挑戰在於 TSV 集成和層數的結合——在 12 層或更多層上應用混合鍵合技術會帶來新的良率、計量和長期可靠性問題,這些問題在量產規模下仍未得到解決。

翹曲

隨着層數的增加,芯片間熱膨脹係數的累積差異會在整個封裝中產生機械應力。其結果是翹曲——封裝出現彎曲,並且每增加一層都會加劇翹曲。仿真數據始終表明,隨着層數的增加,殘餘應力也會增加,而這種應力會影響下游組裝和現場可靠性。

CoWoS:比die壽命更大的瓶頸

完成 HBM 堆疊並不意味着一切的結束。 HBM芯片仍需通過台積電的CoWoS工藝集成到硅中介層上的GPU或ASIC芯片中。目前,台積電的CoWoS產能已售罄至2026年。這一瓶頸是整個AI芯片供應鏈中最緊缺的環節。


交付之後:發貨並不意味着萬事大吉


HBM 以獨立組件的形式交付給客戶——包括 NVIDIA、AMD、Google 等公司。客戶將其與 GPU 或 ASIC 一起組裝成 2.5D SiP 封裝。而這僅僅是新問題的開始。

客戶組裝過程中的熱應力

客戶的封裝工藝包含迴流焊熱處理,這會對HBM堆疊內部的微凸塊和底部填充物施加額外的熱應力。即使內存供應商工廠通過了所有測試,部件在經過客戶的組裝線後仍可能出現問題。這種情況時有發生。

現場三種失效機制

在全天候滿負荷運行的數據中心中,三種性能退化機制同時發揮作用。電遷移會在持續高電流密度下使金屬原子沿着細互連線移動。熱循環會通過反覆的溫度波動使互連線疲勞。蠕變會在長時間高溫機械載荷下使焊點變形。勉強通過認證的產品——並非優勢明顯,只是勉強合格——可能會在發貨數月甚至數年後悄無聲息地在現場發生故障。

封裝後修復 (PPR) 和預測性維護

HBM規範包含封裝後修復 (PPR) 功能,允許用備用芯片替換故障芯片。當缺陷被隔離且備用預算尚未耗盡時,PPR 功能有效。對於隨着時間推移而累積的物理損壞,硬件更換最終是唯一的解決方案。

這種侷限性正推動行業向預測性維護轉型——在正常運行期間持續監測信號質量,以便在性能下降演變為系統故障之前將其檢測出來。Synopsys 和 ProteanTecs 等公司都在致力於開發這方面的解決方案。

我親身經歷過這種情況。當產品層面出現與 HBM 相關的故障時,你會立即遇到三大難題。

首先是歸因問題。這是 HBM 故障還是 GPU 故障?由於兩者集成在同一個封裝中,無法進行內部探測。你只能從症狀入手,試圖反向推斷故障原因。

其次是測試方法。即使你已經將故障範圍縮小到 HBM,你仍然需要找到在系統層面重新測試的方法。內存供應商在發貨前使用的測試環境與客戶在成品 SiP 上可以使用的環境截然不同。沒有現成的方案可循。你必須在時間壓力下從零開始構建測試方法。

第三是與供應商的溝通。要想從內存供應商那裏獲得有效的分析,就必須以他們能夠處理的格式提供正確的數據。這種接口——共享哪些信息,採用何種結構——很少事先確定。而且,供應商自身的現場支持能力也有限。一旦生產環節出現問題,真正能夠提供幫助的工程師往往人手不足。因此,這種級別的現場故障會造成雙方大量的時間和資源浪費。


結論:HBM為何如此昂貴且稀缺


如果要用一句話概括HBM為何如此難產,那就是:它是半導體價值鏈中唯一一個每個環節都同時面臨最高難度的產品。

即便克服了所有這些挑戰,最終成功生產出HBM,還需要經過CoWoS封裝才能獲得成品——而這條生產線的產能已經排到了2026年。

這就是HBM價格昂貴、稀缺以及存儲器公司股價持續上漲的原因。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10