阿里雲推出全新AI計算解決方案:大模型所需GPU狂降82%!

快科技
10/23

機牀商務網欄目 科技動態】10月21日消息,在近日於韓國首爾舉辦的頂級學術會議SOSP 2025(操作系統原理研討會)上,阿里雲發佈了其「Aegaeon」計算池化解決方案。Aegaeon方案的核心在於解決AI模型服務中普遍存在的GPU資源浪費問題,尤其針對那些需求突發或不可預測的大型語言模型。

它打破了傳統的「一個模型綁定一個GPU」的低效模式,而是在Token級別虛擬化GPU訪問,這意味着單個GPU可以被多個不同模型共享服務,實現精細化的資源調度。

阿里雲Aegaeon系統作為一種推理時間調度器,它能在每次生成下一個token後,動態決定是否切換模型,從而將微小的工作片段安排到共享池中。

通過組件複用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低了97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。

在阿里雲模型市場為期超三個月的Beta測試中,Aegaeon系統在服務數十個參數量高達720億的大模型時,所需的NVIDIA H20 GPU數量從1192個銳減至213個,削減比例高達82%。

GPU用量的大幅削減,對於硬件採購成本高昂的大型模型服務商而言,意味着成本將顯著降低。

目前,這項核心技術已成功應用在阿里雲百鍊 平臺。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10