顯著提升GPU利用率！阿里雲AI基礎設施成果入選頂會

近日，阿里雲提出的GPU池化服務多模型研究成果成功入選頂級學術會議SOSP 2025，該研究提出多模型混合服務系統Aegaeon，可大幅提升GPU資源利用率，目前其核心技術已應用在阿里雲百鍊平臺。

SOSP（操作系統原理研討會）由ACM SIGOPS主辦，是計算機系統領域頂級學術會議，平均每年收錄的論文數量僅有數十篇，被譽為計算機操作系統界的「奧斯卡」，入選論文代表了操作系統和軟件領域最具代表的研究成果。本屆SOSP大會僅收錄66篇論文，關於系統軟件與AI大模型技術的融合研究成為新的趨勢。

# 研究背景

全球模型的數量仍在持續增長，據統計，Hugging Face已託管了超100萬個模型。在真實服務場景中，少量熱門模型佔據了總請求的絕大部分，而超過90%的模型則調用頻率較低。當前的事實標準解決方案是為每個模型至少預留一個推理實例，這造成了GPU資源的大量浪費。

# 研究方案

研究團隊在論文中創新性提出多模型混合服務系統Aegaeon，一個實現了token 級多模型混合服務的方法，以實現同時服務衆多LLM時提供更高的GPU利用率。

Aegaeon中對多模型的服務過程主要設計以下三個組：代理層、GPU池與內存管理器。

圖｜研究框架圖

代理層（Proxy layer）。代理層負責接收和分發推理requests，確保負載均衡和容錯能⼒，狀態同步是通過共享內存機制實現的，例如Redis。Aegeeon可以將不同模型的requests分發到同⼀個實例。

GPU池（GPU pool）。GPU池作為⼀個資源池，包含了⼀組由雲提供商虛擬化的GPU實例。每個實例可能包含託管在⼀臺物理機器上的⼀個或多個GPU。在Aegaeon中，單個實例執⾏預填充（prefill）或解碼（decoding）作業，並且可以在token級調度器的指導下，為不同模型的requests提供服務。這使得模型切換成為⼀個關鍵操作。

內存管理器（Memory manager）。內存管理器在服務集羣中協調每個節點的主機內存和空閒GPU內存，⽬的有兩個：1）QuickLoader利⽤可⽤內存來緩存模型權重，加速從遠程模型倉庫獲取模型的耗時過程；2）GPU-CPU KV管理機制統一存儲和管理KV緩存。

# 研究創新點與結論

Aegaeon多模型混合服務系統，首次將調度實現在token級別，在每次生成完下一個token之後，都可通過精確的執行時間預測和創新的token級調度算法規劃是否需要切換模型，從而實現多個模型混合服務且滿足延遲要求。

同時，通過組件複用、顯存精細化管理和KV緩存同步優化等全棧技術，Aegaeon將模型切換開銷降低97%，確保了token級調度的實時性，可支持亞秒級的模型切換響應。

Aegaeon系統支持單GPU同時服務多達7個不同模型，相比現有主流方案提升1.5-9倍的有效吞吐量，實現2-2.5倍的請求處理能力。

圖｜Aegaeon顯著提升GPU利用率

# 成果應用

目前，Aegaeon核心技術已在阿里雲百鍊平臺部署，服務數十個模型的推理，將服務這些模型所需的GPU數量減少了82%。截至目前，阿里雲百鍊平臺已上線Qwen、Wan、DeepSeek等200多款業界領先的模型，過去一年，阿里雲百鍊平臺的模型調用量增長了15倍。

免責聲明：投資有風險，本文並非投資建議，以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請，作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考，不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證，投資者應自行研究並在投資前尋求專業建議。

老虎證券

顯著提升GPU利用率！阿里雲AI基礎設施成果入選頂會

熱議股票