Diffusion約2倍無損加速!訓練-推理協同的緩存學習框架來了

市場資訊
2025/07/06

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

面對擴散模型推理速度慢、成本高的問題,HKUST&北航&商湯提出了全新緩存加速方案——HarmoniCa:訓練-推理協同的特徵緩存加速框架,突破DiT架構在部署端的速度瓶頸,成功實現高性能無損加速。

△HarmoniCa整體壓縮框架

由於現有指標並不能完全反映圖像效果優劣,因此該團隊研究人員提供了大量可視化效果對比圖,更多對比請看原論文。

△PIXART-圖像生成效果圖

該工作已被ICML 2025接收為Poster,並開源項目代碼。

Diffusion 加速難在哪?

Diffusion Transformer(DiT)作為高分辨率圖像生成主力架構,在推理階段仍面臨「重複計算多」「耗時嚴重」的現實瓶頸。例如,使用PIXART-α生成一張2048×2048圖像即需14秒,嚴重影響落地效率。

近期「特徵緩存(Feature Caching)」成為加速新思路,但已有方法普遍存在兩大關鍵問題:

前序時間步無感知:訓練階段忽略緩存歷史,推理時則高度依賴先前結果,二者邏輯斷裂;

訓練目標錯位:訓練對準中間噪聲誤差,推理關注最終圖像質量,優化方向南轅北轍;

這兩大錯配,導致已有緩存學習方法加速有限、圖像失真明顯。緩存機制的基本工作原理如下:

△緩存機制

HarmoniCa緩存學習框架

一句話總結:目標一致、路徑同步,訓練與推理真正協同優化

該工作提出的HarmoniCa框架通過兩個關鍵機制,從根本上解決了以往學習型特徵緩存方法中的訓練-推理脫節問題:

一、Step-Wise Denoising Training(SDT)

逐步去噪訓練,模擬推理全流程,誤差不再層層積累。

傳統方法在訓練時僅採樣某個時間步,緩存是空的,完全跳過了「歷史緩存影響」,而推理時,緩存是從頭累積的,訓練和推理根本不是一回事。

進而該工作提出 SDT 來打破這一不一致:

1)構建完整的 T 步去噪過程,與推理一致;

2)教師-學生結構:學生使用緩存進行去噪,教師不使用緩存作為「理想輸出」;3)每一時間步的Router都被獨立更新,顯式對齊多輪緩存路徑下的輸出誤差;4)學生模型每步將自己的輸出作為下一個輸入,使得誤差傳播機制貼近真實推理軌跡。

效果:SDT顯著降低了時間步間誤差積累,提升最終圖像清晰度與穩定性。

△SDT 有效抑制誤差蔓延(紅色為舊方法,藍色為 SDT)

二、Image Error Proxy Objective(IEPO)

一句話總結:不是「中間好」,而是「最後圖像好」,優化目標就是結果本身。

以往方法訓練時只對齊每一步的噪聲誤差,而推理的目標是最終圖像質量,兩者目標嚴重錯配,導致緩存Router學出來「看似合理」但效果很差。

該工作提出 IEPO 機制,核心思想是:

通過代理項 λ(t) 來估算「使用緩存 vs 不使用緩存」在時間步 t 對最終圖像 x₀ 的影響;

越關鍵的時間步,其 λ(t) 越大,引導 Router 減少該步緩存複用,保留精度;

每隔若干輪重新生成一批圖像,動態更新 λ(t),保證目標始終貼合訓練狀態。

IEPO 的優化目標為:

即在「圖像質量」與「加速率」之間實現可控權衡。

實驗結果

該工作在兩個典型任務場景中驗證了HarmoniCa的有效性:

對比方法包括當前最佳的緩存學習方法 Learning-to-Cache (LTC)、啓發式緩存方法 FORA / ∆-DiT,以及多種加速器設定(DDIM 步數縮減、量化剪枝等)。

分類條件生成(DiT-XL/2 256×256)

重點結論:

文本生成圖像(PIXART-α 256×256)

重點結論:

量化/剪枝VS HarmoniCa

除了與主流緩存方法的對比,該工作也評估了HarmoniCa相比剪枝和量化等壓縮技術的表現。在統一的 20 步採樣設定下,傳統方案如 PTQ4DiT、EfficientDM等雖然模型更小,但實際加速依賴硬件支持,特別是一些定製CUDA內核在H800等新架構上表現並不穩定。更重要的是,量化模型在小步數採樣時往往精度下降嚴重,PTQ4DiT就出現了明顯的性能下滑。而HarmoniCa不依賴底層魔改,無需專用硬件,在各種主流採樣器和設備上都能穩定提速,保持圖像質量,是當前更通用、更穩妥的部署選擇。

△與量化/剪枝方法的比較

與量化結合

該工作還驗證了HarmoniCa與模型量化技術的高度兼容性。在 PIXART-α 256×256 場景下,將HarmoniCa應用於4bit量化模型(EfficientDM),推理速度從1.18×提升至1.85×,FID僅略增0.12,幾乎無感知差異。說明HarmoniCa不僅可獨立提速,也能作為「加速插件」疊加於量化模型之上,進一步釋放性能潛力。未來,該工作也計劃探索其與剪枝、蒸餾等技術的組合能力,為DiT模型的輕量部署開闢更多可能。

△HarmoniCa和量化方法的組合

開銷分析

除了推理提速和質量提升,HarmoniCa 在訓練與推理開銷上也展現出極強優勢,是真正能用、敢用、易部署的工業級方案。

△訓練開銷對比

訓練側:

HarmoniCa 採用無需圖像的訓練策略,僅基於模型和噪聲即可完成優化,不依賴任何額外數據。在同等訓練輪次下,其訓練時間比主流方案 LTC 縮短約 25%,顯存佔用相近,可在單卡穩定運行,適合閉源模型加速和快速迭代。

推理側:

推理端新增 Router 極其輕量,參數僅佔 0.03%,計算開銷低於總 FLOPs 的 0.001%,幾乎不影響吞吐。配合特徵緩存,HarmoniCa 在 PIXART-α 上可實現理論加速比2.07×、實測加速1.69×,具備優越的部署效率與工程可行性。

總結:緩存加速的新範式,訓練推理協同纔是正解!

當前Diffusion加速路徑中,緩存機制正逐漸成為主流方案,但傳統做法要麼依賴手工規則、要麼訓練目標錯位,無法在真實部署中兼顧性能、效率、適應性。

該工作提出的HarmoniCa框架,首次通過:

在PIXART、DiT、LFM等多個模型上,HarmoniCa都實現了更快的推理、更高的質量、更低的訓練門檻,為緩存加速技術注入「可落地」的關鍵支撐。

論文地址:https://arxiv.org/abs/2410.01723

代碼地址:https://github.com/ModelTC/HarmoniCa

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10