顯著提升GPU利用率!阿里雲AI基礎設施成果入選頂會

阿里雲
10/16

近日,阿里雲提出的GPU池化服務多模型研究成果成功入選頂級學術會議SOSP 2025,該研究提出多模型混合服務系統Aegaeon,可大幅提升GPU資源利用率,目前其核心技術已應用在阿里雲百鍊平臺。

SOSP(操作系統原理研討會)由ACM SIGOPS主辦,是計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,被譽為計算機操作系統界的「奧斯卡」,入選論文代表了操作系統和軟件領域最具代表的研究成果。本屆SOSP大會僅收錄66篇論文,關於系統軟件與AI大模型技術的融合研究成為新的趨勢。

# 研究背景

全球模型的數量仍在持續增長,據統計,Hugging Face已託管了超100萬個模型。在真實服務場景中,少量熱門模型佔據了總請求的絕大部分,而超過90%的模型則調用頻率較低。當前的事實標準解決方案是為每個模型至少預留一個推理實例,這造成了GPU資源的大量浪費。

# 研究方案

研究團隊在論文中創新性提出多模型混合服務系統Aegaeon,一個實現了token 級多模型混合服務的方法,以實現同時服務衆多LLM時提供更高的GPU利用率。

Aegaeon中對多模型的服務過程主要設計以下三個組:代理層、GPU池與內存管理器。

圖|研究框架圖

代理層(Proxy layer)。代理層負責接收和分發推理requests,確保負載均衡和容錯能⼒,狀態同步是通過共享內存機制實現的,例如Redis。Aegeeon可以將不同模型的requests分發到同⼀個實例。

GPU池(GPU pool)。GPU池作為⼀個資源池,包含了⼀組由雲提供商虛擬化的GPU實例。每個實例可能包含託管在⼀臺物理機器上的⼀個或多個GPU。在Aegaeon中,單個實例執⾏預填充(prefill)或解碼(decoding)作業,並且可以在token級調度器的指導下,為不同模型的requests提供服務。這使得模型切換成為⼀個關鍵操作。

內存管理器(Memory manager)。內存管理器在服務集羣中協調每個節點的主機內存和空閒GPU內存,⽬的有兩個:1)QuickLoader利⽤可⽤內存來緩存模型權重,加速從遠程模型倉庫獲取模型的耗時過程;2)GPU-CPU KV管理機制統一存儲和管理KV緩存。

# 研究創新點與結論

Aegaeon多模型混合服務系統,首次將調度實現在token級別,在每次生成完下一個token之後,都可通過精確的執行時間預測和創新的token級調度算法規劃是否需要切換模型,從而實現多個模型混合服務且滿足延遲要求。

同時,通過組件複用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。

Aegaeon系統支持單GPU同時服務多達7個不同模型,相比現有主流方案提升1.5-9倍的有效吞吐量,實現2-2.5倍的請求處理能力。

圖|Aegaeon顯著提升GPU利用率

# 成果應用

目前,Aegaeon核心技術已在阿里雲百鍊平臺部署,服務數十個模型的推理,將服務這些模型所需的GPU數量減少了82%。截至目前,阿里雲百鍊平臺已上線Qwen、Wan、DeepSeek等200多款業界領先的模型,過去一年,阿里雲百鍊平臺的模型調用量增長了15倍。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10