萬卡規模之後,什麼纔是AI集群的分水嶺?

大數據在線
03/20

在當今激烈的全球AI競賽之中,除了AI大模型的較量之外,AI基礎設施的競爭亦是核心焦點。

Gartner預測,到2026年,全球AI總支出將攀升至2.52萬億美元,其中構建 AI 基礎設施的支出增長率高達49%。當AI大模型參數量進化到萬億規模、算力集群規模攀升至萬卡乃至十萬卡,用戶「算力焦慮」與AI集群算力利用率(MFU)低下形成極為尖銳的供需矛盾時,如何提升AI基礎設施的協同效率就成為整個產業界亟待突破的一道「難題」。

而解決這道「難題」的本質在於提升數據在計算、存儲與網絡間流轉和處理效率,讓數據不斷突破極限跑得再快一些。為此,中科曙光發布首款全棧自研400G無損高速網絡--scaleFabric,同時結合超級隧道等技術,構築起「存算傳一體化」緊耦合架構,為AI集群提供高效、安全、穩定的數據供給。

AI基礎設施步入強協同階段

近年來,AI基礎設施的發展脈絡逐漸有跡可循。自從AI大模型爆發,迅速帶動算力等AI基礎設施建設的興起。隨着最近幾年完成階段性的建設之後,AI基礎設施又迎來了一個新的關鍵階段:政府工作報告首次提出要發展超大規模智算集群等新基建,而如何將AI集群龐大的算力資源充分發揮出效能,從而滿足用戶迫切的需求和進一步推動AI發展,成為當下行業面臨的現實問題。

曙光信息產業(北京)有限公司總裁助理、分佈式存儲產品部總經理石靜看來,當前AI基礎設施在計算、存儲與網絡三個層面主要面臨着以下核心挑戰:

其一、AI集群的規模在持續擴張,在堆砌大量AI算力之後,算力效能成為制約整個AI發展的瓶頸所在。中國信息通信研究院報告顯示,大模型訓練的算力需求大約每3.5個月就會翻一番,這意味着萬卡級別甚至更大規模的AI集群未來會越來越多,且亟待充分釋放算力的能效。

其二、與數據密切相關的存儲,需要更好地匹配算力需求,充分協助算力將效能發揮出來。

其三、如果是算力是AI時代的內核、數據是倉庫,那麼網絡就是脈絡。隨着AI集群規模持續增加,網絡層面的「通信牆」正在成為成為制約AI集群性能的突出挑戰,網絡性能是影響AI集群效率的關鍵變量。「AI集群的網絡性能越來越重要。現在很多新建集群,基本都過渡到400G網絡。」曙光信息產業(北京)有限公司scaleFabric產品經理縱瑞博介紹道。

事實上,中科曙光發布的國內首款原生無損RDMA高速網絡scaleFabric,即是針對當下AI集群愈發突出的網絡性能挑戰。據悉,scaleFabric面向超大規模智算集群設計,中科曙光從核心關鍵IP、芯片、網卡到交換機、驅動與管理軟件均實現自主研發,構建起scaleFabric從硬件到軟件的完整技術體系。

毫無疑問,隨着AI快速發展帶來對於性能的持續需求,除了局部突破性能瓶頸之外,AI基礎設施作為一個整體的重要性愈發關鍵,需要計算、存儲和網絡形成一體化、高效協同,「AI基礎設施步入緊耦合、強協同的新發展階段,只有這樣才能讓用戶的投資建設回報率最高。」石靜如是說。

算存傳一體化離不開這個法寶

如果說scaleFabric相當於將數據中心網絡從國道升級到超級高速公路,那麼曙光分佈式存儲「超級隧道」技術則賦予了這條高速公路的智能化調度能力,可以根據AI集群的不同IO類型來設計路線,設計出一條條專屬數據通道,讓數據沿最優路徑高速流動,有效減少網絡擁堵和資源競爭,從而串聯起計算、存儲與網絡,實現AI基礎設施的一體化和高效協同。

事實上,AI對於數據存儲有着高性能、高帶寬、低時延的顯著需求。此外AI的預訓練、推理等不同工作負載的IO特徵又有着明顯差異。例如,在預訓練階段的數據加載,需要短時間完成海量數據的順序讀取;訓練階段的Checkpoint則需要大量的併發讀寫;而越來越多的推理任務,則對於小IO的隨機吞吐要求更高……

因此,「超級隧道」技術的設計思路在當前很有必要。那麼,曙光存儲是如何實現「超級隧道」技術,並且讓其與自研RDMA高速網絡scaleFabric深度適配、協同工作的?

石靜介紹,「超級隧道」技術在硬件層面為各數據域配置獨享的RDMA網絡連接和PCIe通道,並通過NUMA親和性優化資源分配;在軟件層面實現線程、內存與存儲資源的綁定調度;同時通過軟硬件協同優化設計,來實現數據高速流動最優化路徑,從而實現計算、存儲與網絡的一體化,並持續為AI計算提供穩定的數據負載支撐。

具體來看,「超級隧道」技術充分利用了RDMA高速網絡的高性能和低延時的特點,利用獨有的虛擬網卡技術虛擬出多個小網卡,既實現了不同數據的鏈路均衡保障,又讓資源得到隔離,使得不同數據鏈路之間互不干擾和爭搶資源。

傳統做法是針對計算、存儲與網絡之間每一筆聯接都先分配好內存等資源,這種模式不夠靈活,一旦AI集群規模提升、業務應用快速增長,尤其是當前智能體湧現趨勢下,推理業務呈現出爆炸性態勢,海量的數據聯接很容易耗盡寶貴的基礎設施資源,並形成性能瓶頸。

「超級隧道」技術賦予了數據傳輸的動態化和智能化。在確保基本服務啓動的情況,「超級隧道」技術為每一個聯接靈活分配資源,既能夠快速確保每一個聯接啓動起來,還能根據聯接流量大小變化來動態分配內存等資源,確保了整個數據中心數據流轉與傳輸的高效。

在石靜看來,「超級隧道」技術這項法寶之所以能夠在存算傳一體化中發揮重要作用,得益於中科曙光堅持多年的全棧自研戰略,在硬件層基於國產化組件構建,在軟件層面擁有完整源代碼,實現基礎架構與軟件棧的全面自主可控,為存算傳高效協同提供了堅實基礎,完美支撐起AI工作負載的需求。

實戰驗證,讓數據跑得更快

技術在紙面上的優美,終究需要在AI現實世界繁雜業務中經過洗禮。

今年2月在國家超算互聯網核心節點,3套scaleX 萬卡超集群同時上線試運行,成為了中國首個實際投運的最大國產 AI 算力池,這正是中科曙光存算傳一體化緊耦合、強協同架構的最佳證言。

據悉,憑藉原生RDMA網絡的零門檻部署優勢,這3套scaleX萬卡集群從交換機上電到應用上線,僅用時36小時。超集群已經歷近1年的穩定測試,服務作業逾10萬個,性能、擴展性和穩定性均經受了考驗。

實際應用中,超集群依託RDMA高速網絡+超級隧道技術,各類應用均獲得了效能的大幅提升。例如,助力某氣象模擬客戶將應用性能提升達到2倍左右、支撐國內頂級科研團隊將蛋白質研究效率提升3-6個數量級等。

此外,國內主流大模型廠商也在scaleX 集群中驗證了RDMA高速網絡+超級隧道技術的優勢,其預訓練的數據準備、訓練階段的Checkpoint以及推理等AI全鏈路環節均實現了高性能支撐。「一套存儲即支撐起該客戶訓推場景的全業務流。」石靜補充道。

無疑,RDMA高速網絡+超級隧道技術對於對多樣化工作負載的兼容和支撐能力,未來將會為「算存傳一體化」架構帶來更加廣闊的應用前景。

綜合觀察

未來的數據中心,將是一個以數據為中心、計算、存儲、網絡深度融合的有機體。只有消除數據流動的一切障礙,才能將算力的價值最大化。

在 scaleFabric 發布之前,中國在高性能網絡領域幾乎是一片空白。廣大客戶只能在性能卓越但封閉的國外方案與兼容性好但時延較高的傳統以太網方案之間艱難權衡 。

如今,曙光分佈式存儲超級隧道技術與scaleFabric緊密結合,補齊了國產AI 基礎設施版圖上的最後一塊拼圖,構建起AI基礎設施領域完整的國產化技術閉環,推動着中國人工智能產業向着更深邃、更遼闊的星辰大海進發。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10