顯著提升GPU利用率!
2025年10月18日,在韓國首爾舉辦的第31屆操作系統原理研討會(SOSP)上,阿里雲發佈的「Aegaeon」計算池化解決方案研究成果成功入選。
該方案創新性地解決了AI模型服務中普遍存在的GPU資源浪費問題,在阿里雲模型市場測試中,實現了英偉達GPU用量大幅削減82%的顯著成效。
SOSP(操作系統原理研討會)由ACM SIGOPS主辦,是計算機系統領域頂級學術會議,平均每年收錄的論文數量僅有數十篇,被譽為計算機操作系統界的「奧斯卡」,本屆SOSP大會僅收錄66篇論文。
目前,雲服務商在提供AI模型服務時,資源效率低下問題突出。平臺需託管數千個AI模型以應對海量併發API調用,但用戶請求常集中於少數熱門模型,如阿里巴巴的Qwen系列模型。這種「長尾效應」致使大量資源閒置,在阿里雲模型市場中,高達17.7%的GPU算力僅用於處理1.35%的請求,造成了高昂的成本浪費。
圖|研究框架圖
為解決這一痛點,阿里雲推出Aegaeon系統。該系統運用創新的GPU資源池化技術,打破了以往GPU與特定模型綁定的低效模式,允許單個GPU動態服務於多個不同的AI模型。在阿里雲模型市場進行的為期超三個月的Beta測試中,Aegaeon系統展現出卓越效能。測試數據顯示,在服務數十個參數量高達720億的大模型時,所需的英偉達H20 GPU數量從1192個成功減少至213個,用量削減82%。這意味着僅用213張卡就完成了原本1192張卡才能完成的工作,極大地提高了資源利用率,降低了成本。
此次由北京大學與阿里雲合作的研究成果,被認為是「首個揭示並解決市場上併發大語言模型服務存在過高成本」的公開工作,為行業提供了全新的優化思路。SOSP作為計算機操作系統領域的頂尖會議,錄取率控制嚴格,平均每年收錄論文僅數十篇,入選論文代表了操作系統和軟件領域最具代表性的研究成果,Aegaeon系統研究成果的入選,無疑是對阿里雲在該領域創新能力的高度認可。
阿里雲Aegaeon計算池化解決方案的推出,不僅為自身解決了AI模型服務中的資源浪費問題,也為整個雲服務和AI產業提供了可借鑑的模式,有望推動行業在提升資源效率、降低成本方面邁出重要一步。
來源:信創頭條