谷歌發布KV緩存壓縮技術,存儲需求預期遭衝擊,美股存儲板塊集體下挫

華爾街見聞
03/25

美股存儲芯片板塊周三遭遇重挫。閃迪一度跌6.5%,美光科技跌4%,西部數據跌超4%,希捷科技跌超5%。

谷歌發布的新型AI內存壓縮技術TurboQuant,引發市場對存儲需求前景的擔憂。據稱,該技術可在不損失準確性的前提下,將大語言模型的緩存內存佔用至少減少6倍,並實現最高8倍的加速,旨在解決AI推理與向量搜索中的內存瓶頸問題。

谷歌TurboQuant衝擊存儲需求

谷歌發布的TurboQuant是一種專為大型語言模型和向量搜索引擎設計的內存壓縮技術核心目標是解決AI系統中鍵值緩存(Key-Value Cache)的存儲瓶頸。

根據谷歌公告,TurboQuant可在無需模型訓練或微調的前提下,將鍵值緩存壓縮至3比特,在Gemma、Mistral等開源模型上實測達到鍵值內存6倍縮減效果。在英偉達H100 GPU加速器上,該算法較未量化鍵值方案性能提升最高達8倍。

該技術通過兩步實現壓縮:首先採用PolarQuant方法對數據向量進行旋轉以實現高質量壓縮,繼而利用量化Johnson-Lindenstrauss算法消除殘差誤差。谷歌指出,傳統向量量化方法每個數字會產生1至2比特的額外內存開銷,部分抵消了壓縮收益,而TurboQuant對此有所改善。

TurboQuant將於ICLR 2026發表,PolarQuant則計劃在AISTATS 2026上亮相。谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多項基準測試中完成驗證,並指出該技術同樣適用於大規模搜索引擎的向量檢索場景。

傑文斯悖論再現?TurboQuant或激活更多AI應用場景

摩根士丹利指出,谷歌TurboQuant技術僅作用於推理階段的鍵值緩存,不影響模型權重所佔用的高帶寬內存(HBM),也與訓練任務無關。因此,這並非存儲總需求或硬件總量減少6倍,而是通過效率提升增加單GPU吞吐量——相同硬件可支持4至8倍更長的上下文,或在不觸發內存溢出的前提下顯著提升批處理規模。

儘管如此,存儲板塊今年以來累計漲幅顯著,估值本已承壓,任何可能削減硬件需求的技術進展都足以觸發市場的防禦性反應。摩根士丹利亦提示,由於該壓縮技術可直接集成進平台基礎設施,對軟件層面可能形成邊際利空。

在分析中,摩根士丹利援引傑文斯悖論,認為效率提升反而可能推升整體需求。其邏輯在於:TurboQuant通過壓縮數據體積與傳輸量,大幅降低單次查詢的服務成本,使AI部署更具盈利性。這意味着原本依賴雲端集群的模型可遷移至本地硬件運行,有效降低AI規模化部署的門檻,從而激活更多應用場景,帶動現有基礎設施利用率提升。

摩根士丹利將TurboQuant稱為「重塑AI部署成本曲線的突破」,並將其與DeepSeek的影響相提並論——對雲服務商與模型平台構成積極信號,在長上下文推理與檢索密集型應用中帶來可觀的投資回報價值,而對算力與內存硬件的長期影響則判斷為「中性偏正面」。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10