近日,英偉達與麻省理工學院、香港大學合作推出Fast-dLLM框架,旨在解決擴散模型(Diffusion-based LLMs)在實際應用中的效率瓶頸。儘管擴散模型採用雙向注意力機制具備理論優勢,但其高昂的計算成本和多詞元同步解碼時的質量下降問題,限制了其廣泛應用。
Fast-dLLM通過引入塊狀近似KV緩存機制和置信度感知並行解碼策略,顯著優化性能。其中,KV緩存將序列劃分爲塊並預計算激活值,減少冗餘計算;置信度解碼則通過選擇性處理高置信度詞元,避免依賴衝突。測試結果顯示,該框架在GSM8K數據集上實現27.6倍加速,準確率達76.0%,同時在其他基準測試中也表現出色。
這項研究有效平衡了速度與質量,爲擴散模型在語言生成任務中的實際應用開闢了新路徑。