美股存儲芯片板塊周三遭遇重挫。閃迪一度跌6.5%,美光科技跌4%,西部數據跌超4%,希捷科技跌超5%。
谷歌發布的新型AI內存壓縮技術TurboQuant,引發市場對存儲需求前景的擔憂。據稱,該技術可在不損失準確性的前提下,將大語言模型的緩存內存佔用至少減少6倍,並實現最高8倍的加速,旨在解決AI推理與向量搜索中的內存瓶頸問題。
谷歌TurboQuant衝擊存儲需求
谷歌發布的TurboQuant是一種專為大型語言模型和向量搜索引擎設計的內存壓縮技術,核心目標是解決AI系統中鍵值緩存(Key-Value Cache)的存儲瓶頸。
根據谷歌公告,TurboQuant可在無需模型訓練或微調的前提下,將鍵值緩存壓縮至3比特,在Gemma、Mistral等開源模型上實測達到鍵值內存6倍縮減效果。在英偉達H100 GPU加速器上,該算法較未量化鍵值方案性能提升最高達8倍。
該技術通過兩步實現壓縮:首先採用PolarQuant方法對數據向量進行旋轉以實現高質量壓縮,繼而利用量化Johnson-Lindenstrauss算法消除殘差誤差。谷歌指出,傳統向量量化方法每個數字會產生1至2比特的額外內存開銷,部分抵消了壓縮收益,而TurboQuant對此有所改善。
TurboQuant將於ICLR 2026發表,PolarQuant則計劃在AISTATS 2026上亮相。谷歌已在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER及L-Eval等多項基準測試中完成驗證,並指出該技術同樣適用於大規模搜索引擎的向量檢索場景。
傑文斯悖論再現?TurboQuant或激活更多AI應用場景
摩根士丹利指出,谷歌TurboQuant技術僅作用於推理階段的鍵值緩存,不影響模型權重所佔用的高帶寬內存(HBM),也與訓練任務無關。因此,這並非存儲總需求或硬件總量減少6倍,而是通過效率提升增加單GPU吞吐量——相同硬件可支持4至8倍更長的上下文,或在不觸發內存溢出的前提下顯著提升批處理規模。
儘管如此,存儲板塊今年以來累計漲幅顯著,估值本已承壓,任何可能削減硬件需求的技術進展都足以觸發市場的防禦性反應。摩根士丹利亦提示,由於該壓縮技術可直接集成進平台基礎設施,對軟件層面可能形成邊際利空。
在分析中,摩根士丹利援引傑文斯悖論,認為效率提升反而可能推升整體需求。其邏輯在於:TurboQuant通過壓縮數據體積與傳輸量,大幅降低單次查詢的服務成本,使AI部署更具盈利性。這意味着原本依賴雲端集群的模型可遷移至本地硬件運行,有效降低AI規模化部署的門檻,從而激活更多應用場景,帶動現有基礎設施利用率提升。
摩根士丹利將TurboQuant稱為「重塑AI部署成本曲線的突破」,並將其與DeepSeek的影響相提並論——對雲服務商與模型平台構成積極信號,在長上下文推理與檢索密集型應用中帶來可觀的投資回報價值,而對算力與內存硬件的長期影響則判斷為「中性偏正面」。