英偉達聯合團隊推出Fast-dLLM框架,大幅提升擴散模型推理速度

DoNews
06-03

近日,英偉達與麻省理工學院、香港大學合作推出Fast-dLLM框架,旨在解決擴散模型(Diffusion-based LLMs)在實際應用中的效率瓶頸。儘管擴散模型採用雙向注意力機制具備理論優勢,但其高昂的計算成本和多詞元同步解碼時的質量下降問題,限制了其廣泛應用。

Fast-dLLM通過引入塊狀近似KV緩存機制和置信度感知並行解碼策略,顯著優化性能。其中,KV緩存將序列劃分爲塊並預計算激活值,減少冗餘計算;置信度解碼則通過選擇性處理高置信度詞元,避免依賴衝突。測試結果顯示,該框架在GSM8K數據集上實現27.6倍加速,準確率達76.0%,同時在其他基準測試中也表現出色。

這項研究有效平衡了速度與質量,爲擴散模型在語言生成任務中的實際應用開闢了新路徑。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10