近日,阿里雲提出的GPU池化服務多模型研究成果成功入選頂級學術會議SOSP 2025,該研究提出多模型混合服務系統Aegaeon,可大幅提升GPU資源利用率,目前其核心技術已應用在阿里雲百鍊平臺。
SOSP(操作系統原理研討會)由ACM SIGOPS主辦,是計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,被譽為計算機操作系統界的「奧斯卡」,入選論文代表了操作系統和軟件領域最具代表的研究成果。本屆SOSP大會僅收錄66篇論文,關於系統軟件與AI大模型技術的融合研究成為新的趨勢。
# 研究背景
全球模型的數量仍在持續增長,據統計,Hugging Face已託管了超100萬個模型。在真實服務場景中,少量熱門模型佔據了總請求的絕大部分,而超過90%的模型則調用頻率較低。當前的事實標準解決方案是為每個模型至少預留一個推理實例,這造成了GPU資源的大量浪費。
# 研究方案
研究團隊在論文中創新性提出多模型混合服務系統Aegaeon,一個實現了token 級多模型混合服務的方法,以實現同時服務衆多LLM時提供更高的GPU利用率。
Aegaeon中對多模型的服務過程主要設計以下三個組:代理層、GPU池與內存管理器。
圖|研究框架圖
代理層(Proxy layer)。代理層負責接收和分發推理requests,確保負載均衡和容錯能⼒,狀態同步是通過共享內存機制實現的,例如Redis。Aegeeon可以將不同模型的requests分發到同⼀個實例。
GPU池(GPU pool)。GPU池作為⼀個資源池,包含了⼀組由雲提供商虛擬化的GPU實例。每個實例可能包含託管在⼀臺物理機器上的⼀個或多個GPU。在Aegaeon中,單個實例執⾏預填充(prefill)或解碼(decoding)作業,並且可以在token級調度器的指導下,為不同模型的requests提供服務。這使得模型切換成為⼀個關鍵操作。
內存管理器(Memory manager)。內存管理器在服務集羣中協調每個節點的主機內存和空閒GPU內存,⽬的有兩個:1)QuickLoader利⽤可⽤內存來緩存模型權重,加速從遠程模型倉庫獲取模型的耗時過程;2)GPU-CPU KV管理機制統一存儲和管理KV緩存。
# 研究創新點與結論
Aegaeon多模型混合服務系統,首次將調度實現在token級別,在每次生成完下一個token之後,都可通過精確的執行時間預測和創新的token級調度算法規劃是否需要切換模型,從而實現多個模型混合服務且滿足延遲要求。
同時,通過組件複用、顯存精細化管理和KV緩存同步優化等全棧技術,Aegaeon將模型切換開銷降低97%,確保了token級調度的實時性,可支持亞秒級的模型切換響應。
Aegaeon系統支持單GPU同時服務多達7個不同模型,相比現有主流方案提升1.5-9倍的有效吞吐量,實現2-2.5倍的請求處理能力。
圖|Aegaeon顯著提升GPU利用率
# 成果應用
目前,Aegaeon核心技術已在阿里雲百鍊平臺部署,服務數十個模型的推理,將服務這些模型所需的GPU數量減少了82%。截至目前,阿里雲百鍊平臺已上線Qwen、Wan、DeepSeek等200多款業界領先的模型,過去一年,阿里雲百鍊平臺的模型調用量增長了15倍。