Diffusion約2倍無損加速！訓練-推理協同的緩存學習框架來了

　　炒股就看金麒麟分析師研報，權威，專業，及時，全面，助您挖掘潛力主題機會！

面對擴散模型推理速度慢、成本高的問題，HKUST&北航&商湯提出了全新緩存加速方案——HarmoniCa：訓練-推理協同的特徵緩存加速框架，突破DiT架構在部署端的速度瓶頸，成功實現高性能無損加速。

△HarmoniCa整體壓縮框架

由於現有指標並不能完全反映圖像效果優劣，因此該團隊研究人員提供了大量可視化效果對比圖，更多對比請看原論文。

△PIXART-圖像生成效果圖

該工作已被ICML 2025接收為Poster，並開源項目代碼。

Diffusion 加速難在哪？

Diffusion Transformer（DiT）作為高分辨率圖像生成主力架構，在推理階段仍面臨「重複計算多」「耗時嚴重」的現實瓶頸。例如，使用PIXART-α生成一張2048×2048圖像即需14秒，嚴重影響落地效率。

近期「特徵緩存（Feature Caching）」成為加速新思路，但已有方法普遍存在兩大關鍵問題：

前序時間步無感知：訓練階段忽略緩存歷史，推理時則高度依賴先前結果，二者邏輯斷裂；

訓練目標錯位：訓練對準中間噪聲誤差，推理關注最終圖像質量，優化方向南轅北轍；

這兩大錯配，導致已有緩存學習方法加速有限、圖像失真明顯。緩存機制的基本工作原理如下：

△緩存機制

HarmoniCa緩存學習框架

一句話總結：目標一致、路徑同步，訓練與推理真正協同優化

該工作提出的HarmoniCa框架通過兩個關鍵機制，從根本上解決了以往學習型特徵緩存方法中的訓練-推理脫節問題：

一、Step-Wise Denoising Training（SDT）

逐步去噪訓練，模擬推理全流程，誤差不再層層積累。

傳統方法在訓練時僅採樣某個時間步，緩存是空的，完全跳過了「歷史緩存影響」，而推理時，緩存是從頭累積的，訓練和推理根本不是一回事。

進而該工作提出 SDT 來打破這一不一致：

1）構建完整的 T 步去噪過程，與推理一致；

2）教師-學生結構：學生使用緩存進行去噪，教師不使用緩存作為「理想輸出」；3）每一時間步的Router都被獨立更新，顯式對齊多輪緩存路徑下的輸出誤差；4）學生模型每步將自己的輸出作為下一個輸入，使得誤差傳播機制貼近真實推理軌跡。

效果：SDT顯著降低了時間步間誤差積累，提升最終圖像清晰度與穩定性。

△SDT 有效抑制誤差蔓延（紅色為舊方法，藍色為 SDT）

二、Image Error Proxy Objective（IEPO）

一句話總結：不是「中間好」，而是「最後圖像好」，優化目標就是結果本身。

以往方法訓練時只對齊每一步的噪聲誤差，而推理的目標是最終圖像質量，兩者目標嚴重錯配，導致緩存Router學出來「看似合理」但效果很差。

該工作提出 IEPO 機制，核心思想是：

通過代理項 λ(t) 來估算「使用緩存 vs 不使用緩存」在時間步 t 對最終圖像 x₀ 的影響；

越關鍵的時間步，其 λ(t) 越大，引導 Router 減少該步緩存複用，保留精度；

每隔若干輪重新生成一批圖像，動態更新 λ(t)，保證目標始終貼合訓練狀態。

IEPO 的優化目標為：

即在「圖像質量」與「加速率」之間實現可控權衡。

實驗結果

該工作在兩個典型任務場景中驗證了HarmoniCa的有效性：

對比方法包括當前最佳的緩存學習方法 Learning-to-Cache (LTC)、啓發式緩存方法 FORA / ∆-DiT，以及多種加速器設定（DDIM 步數縮減、量化剪枝等）。

分類條件生成（DiT-XL/2 256×256）

重點結論：

文本生成圖像（PIXART-α 256×256）

重點結論：

量化/剪枝VS HarmoniCa

除了與主流緩存方法的對比，該工作也評估了HarmoniCa相比剪枝和量化等壓縮技術的表現。在統一的 20 步採樣設定下，傳統方案如 PTQ4DiT、EfficientDM等雖然模型更小，但實際加速依賴硬件支持，特別是一些定製CUDA內核在H800等新架構上表現並不穩定。更重要的是，量化模型在小步數採樣時往往精度下降嚴重，PTQ4DiT就出現了明顯的性能下滑。而HarmoniCa不依賴底層魔改，無需專用硬件，在各種主流採樣器和設備上都能穩定提速，保持圖像質量，是當前更通用、更穩妥的部署選擇。

△與量化/剪枝方法的比較

與量化結合

該工作還驗證了HarmoniCa與模型量化技術的高度兼容性。在 PIXART-α 256×256 場景下，將HarmoniCa應用於4bit量化模型（EfficientDM），推理速度從1.18×提升至1.85×，FID僅略增0.12，幾乎無感知差異。說明HarmoniCa不僅可獨立提速，也能作為「加速插件」疊加於量化模型之上，進一步釋放性能潛力。未來，該工作也計劃探索其與剪枝、蒸餾等技術的組合能力，為DiT模型的輕量部署開闢更多可能。

△HarmoniCa和量化方法的組合

開銷分析

除了推理提速和質量提升，HarmoniCa 在訓練與推理開銷上也展現出極強優勢，是真正能用、敢用、易部署的工業級方案。

△訓練開銷對比

訓練側：

HarmoniCa 採用無需圖像的訓練策略，僅基於模型和噪聲即可完成優化，不依賴任何額外數據。在同等訓練輪次下，其訓練時間比主流方案 LTC 縮短約 25%，顯存佔用相近，可在單卡穩定運行，適合閉源模型加速和快速迭代。

推理側：

推理端新增 Router 極其輕量，參數僅佔 0.03%，計算開銷低於總 FLOPs 的 0.001%，幾乎不影響吞吐。配合特徵緩存，HarmoniCa 在 PIXART-α 上可實現理論加速比2.07×、實測加速1.69×，具備優越的部署效率與工程可行性。

總結：緩存加速的新範式，訓練推理協同纔是正解！

當前Diffusion加速路徑中，緩存機制正逐漸成為主流方案，但傳統做法要麼依賴手工規則、要麼訓練目標錯位，無法在真實部署中兼顧性能、效率、適應性。

該工作提出的HarmoniCa框架，首次通過：

在PIXART、DiT、LFM等多個模型上，HarmoniCa都實現了更快的推理、更高的質量、更低的訓練門檻，為緩存加速技術注入「可落地」的關鍵支撐。

論文地址：https://arxiv.org/abs/2410.01723

代碼地址：https://github.com/ModelTC/HarmoniCa

海量資訊、精準解讀，盡在新浪財經APP

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

Diffusion約2倍無損加速！訓練-推理協同的緩存學習框架來了

熱議股票