算力、算法雙重變革?九章雲極CEO方磊:GPU雲將成AI基礎設施新火種

市場資訊
06-16

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

本文來源:時代週報 作者:申謹睿

AI新雲(也稱GPU雲、智算雲)是全球 AI 基礎設施當下變革的註腳。

過去一年,生成式AI及大語言模型集成企業應用加速生長,市場對訓練 AI 模型的 GPU 專用計算需求激增。爲滿足該需求,GPU專用雲服務平臺不斷湧現,這些雲服務平臺被稱爲 AI 新雲( NeoCloud)。

(九章雲極CEO方磊 受訪者供圖)

與提供廣泛通用服務的傳統通算雲服務商不同,NeoCloud 專注爲 AI 工作負載提供高性能基礎架構。據Business Research預測,全球GPU專用雲市場規模將由2024年的31.7億美元快速增長至2033年472.4億美元,增長近15倍,複合增長率約爲35%。

(數據來源:Business Research)

爲在這一藍海中掌握先發優勢,海內外企業皆摩拳擦掌。

今年3月,被業內稱作“英偉達親兒子”的AI基礎設施企業CoreWeave上市,這家依託英偉達GPU資源衝擊新雲市場的創企,市值在IPO後的兩個月從230億美元飆升至720億美元。與CoreWeave頗爲類似,另一家海外AI基礎設施企業Crusoe也憑藉其掌握的GPU資源成功轉型雲服務商。

在這場AI算力淘金熱中,中國同樣參與者衆多,其中不乏雲服務商、利用雲服務拓展業務的AI基礎設施企業。

今年第二季度,這些衝擊AI新雲計算的公司先後發佈了自己的AI基礎設施服務。如CoreWeave推出基於英偉達GB200的全新架構;阿里雲基於 PAI-DLC 雲原生分佈式深度學習訓練平臺推出了 FlashMoE,九章雲極從AI計算底層革新出發,推出了基於Serverless+RL強化學習技術架構的九章智算雲Alaya NeW Cloud。

“相比海外企業以資本驅動實現規模化,中國AI新雲更關注迭代速度、總體擁有成本等務實客戶價值。”近日,九章雲極CEO方磊在接受時代週報記者專訪時表示,資本市場對以CoreWeave爲代表的資源型企業的考察重點並非技術,而是其憑藉賣資源打下的市場規模。相比而言,中國企業更關注技術本身的“用處”——業務範圍既涵蓋售賣資源,也包括應用在各種場景中的AI工具。他認爲,這樣的模式有助於維繫長尾客戶,而長尾客戶往往是企業穩健發展的關鍵要素。

九章雲極DataCanvas於2013年成立,是國內AI基礎設施的頭部企業。此前,九章雲極提出“一度算力包”概念,希望解決行業中算力結構性錯配、服務非標準化、用戶需求難以預測等問題。

方磊是清華電子工程系畢業的博士,雖技術出身,但對商業的見解十分“接地氣”。他表示,商業的本質是“賣貨”,在交易與合作中,要理解貨物本身的價值,也要清楚其邊界,同時看到客戶企業的能動性和創造力。

“涉足AI新雲業務的公司把所能提供的價值點押注在算力層而非工具鏈上,更有利於公司行穩致遠。”方磊向時代週報記者解釋道,GPU一旦“雲化”,其規模和技術門檻會迅速提升。規模將會和電力一樣巨大。就像微軟從操作系統的軟件公司涉足Office,GPU雲企業也會克服算力、算法變遷帶來的難題,在多元的生態位上找到自己的角色。

算力:CPU雲向GPU雲的歷史性遷移

市場爲什麼會大力呼喚GPU專用雲?

方磊表示, 傳統雲架構的侷限性逐漸凸顯。傳統CPU 雲基於虛擬化技術的資源切片模式,主要針對互聯網時代帶寬密集型應用設計。但 AI 工作負載以計算密集型處理爲核心,需要大規模並行計算能力,這與CPU的串行處理特性形成了根本性矛盾。

簡而言之,CPU的技術架構在訓練和推理大型AI模型方面不夠高效。那麼,AI時代需要怎樣的硬件設施?

方磊向時代週報記者拆解道,硬件方面,GPU性能更強,資源利用方式更“聰明”。如英偉達最新的 H200 GPU 內存帶寬達 4.8TB/s,約爲傳統 CPU 系統( 50GB/s) 的近百倍,在深度學習訓練中,性能可提升 10-100 倍。同時,Multi-Instance GPU(MIG)技術能將單個 GPU 分割爲最多7 個獨立實例,即不同“GPU分身”可以同時工作,互不干擾,便於下游企業更靈活地分配計算資源,實現 GPU 的精細化管理。

硬件迭代如同給AI研發裝上了"渦輪增壓",在帶來高效計算的同時,也爲業內玩家的商業模式帶來與傳統巨頭同臺競技的底氣。時代週報記者注意到,在傳統 CPU 通算雲向 GPU 智算雲的架構遷移的過程中,傳統雲巨頭面臨了新勢力的挑戰——AWS、Google Cloud、Azure等企業雖推出 GPU 實例,但在定價和性能優化上未能即時適應新的市場需求。

“一個數據中心,如果同時兼顧CPU和GPU的需求,就會變成‘四不像’。”方磊解釋稱,一方面,如果數據中心僅運行GPU,要比同時運行GPU和CPU的成本低廉。據市場信息,如亞馬遜的GPU租賃價格爲12美元/卡時,CoreWeave的價格則爲6美元/卡時;另一方面,假如一個計算中心不是單純爲GPU高度優化的,也會影響GPU的性能。”

相較傳統雲廠商“大象難起舞”,專用GPU雲企業的成本與商業模式更顯“普適性”。如CoreWeave 的 GPU 實例定價,相比傳統雲提供商有 50%-80% 的成本優勢;九章雲極智算雲Alaya NeW Cloud的定價策略則拋去了傳統裸金屬租賃方式,提出“一度算力”按量計費模式,降低算力使用門檻,提升算力使用的靈活性。

從 CPU 雲到 GPU 雲的遷移,不僅是技術升級,更是計算範式從通用向專用的根本轉變,這種轉變正重塑着整個雲計算產業的競爭格局。

算法:深度學習向強化學習躍遷

算法層面的變革也在影響底層算力的躍遷。當前,AI 算法正從數據驅動的深度學習向經驗學習轉變,這一新的模型訓練方式,對GPU專用雲的效率提出了新要求。

“用於訓練大模型的高質量數據量接近天花板,難再有指數級增長。這一限制促使研究者轉向強化學習,通過模型與環境交互生成訓練數據,以經驗反饋突破數據稀缺瓶頸,增強模型的推理能力。”方磊告訴時代週報記者,算法範式的變化會產生新的算力缺口。原因在於,強化學習的多模型架構大幅增加了訓練資源需求。以 70B 參數模型爲例,RLHF 階段約需 48 個 A100 GPU 同時工作,計算需求比傳統深度學習增加 1-2 個數量級。

"這一數據的判斷與英偉達計算芯片迭代的實際節奏高度吻合——與‘B系列’芯片相比,其‘R系列’芯片的推理性能實現了十倍乃至百倍的提高。”方磊補充道。

如何提升GPU專用雲的效率以應對算法的變革?不妨從雲計算的發展史中汲取經驗。

近20年,雲計算產業的發展出現了三個分水嶺。一是以虛擬化爲主要技術支撐的雲計算正式登上歷史舞臺,應對高速擴張的移動互聯網以及流媒體萌芽所帶來的爆炸式計算需求;二是池化技術的變革,通過規模化的調度、編排,形成了超大規模的計算和存儲資源池,繼而形成亞馬遜雲、微軟雲、阿里雲三強鼎立的格局;三是阿里雲創新性地推出CIPU(雲基礎設施處理器)架構方式,該架構不僅能在數據中心內發揮效用,也能和系統內的軟硬件深度適配,當計算資源、存儲資源、網絡資源接入CIPU後,就會被雲化爲虛擬算力進行調度編排,兼顧零損耗與高性能。

前兩次浪潮,使得CPU爲核心的傳統X86架構替代了大型機、小型機,滿足了當時企業業務擴展帶來的算力彈性需求,但他們的本質都是通過軟件的優化,將越來越多的計算節點連接組合對外提供服務。時至第三次變革,軟件的迭代已不足以應對當時的市場需求,架構的創新成爲雲廠商換道超車的新思路。

同樣地,於GPU專用雲而言,“軟硬一體化”的創新架構是應對當前算法變化的抓手。方磊告訴時代週報記者,九章智算雲從底層技術架構出發,推動由虛擬技術向Serverless(無服務)+RL(Reinforcement Learning,強化學習)爲主導的架構演變,支撐AI部署從“配置機器”轉向“提交任務”,從而提高高密度算力需求下的GPU資源的利用率。

Serverless+RL的核心是將傳統後端服務拆解爲更細粒度的函數或服務單元,由雲平臺自動管理資源、運維和擴展。就如解決飽腹問題,需求方原本需要建廚房、買食材甚至僱廚師,而現在只需要在外賣平臺下單即可。

“在CPU雲時代,虛擬化技術通過切片資源讓用戶使用;GPU雲時代,Serverless技術可以讓用戶更聚焦應用而非花太多代價去關注底層優化。讓GPU雲的提供者更關注如何做好AI優化、高密集AI計算等,讓企業低成本實現他們的目標。”

“與自動駕駛的AI訓練系統類似,得益於Serverless 架構,九章雲極AI新雲平臺DataCanvas Alaya NeW Cloud能自動完成環境配置、策略加載與任務監控,在強化學習訓練中的端到端性能提升5倍。同時,Alaya-UI智能體採樣速率提升5-10倍,GPU利用率提升2倍。”方磊認爲,Serverless會成爲GPU雲的主要技術趨勢。

(九章雲極智能計算論壇 受訪者供圖)

中美AI新雲分野

在AI雲服務的競逐中,中美兩國走出了截然不同的發展路徑。

美國AI雲市場呈現出典型的資本集聚特徵。CoreWeave通過與英偉達的深度合作,憑藉數百億美元的基礎設施投入,構建起50-80%的成本優勢;同樣採用資本密集策略的Lambda Labs,則以每小時2.49美元的H100 GPU租賃價格快速佔領學術市場。

不過,上述兩家企業的客戶集中度較高,如CoreWeave超過60%的收入來自微軟單一大客戶。這種商業結構雖能保證短期收入快速增長,卻也暗藏一定業務風險。

中國企業則傾向於通過技術破局、圍繞客戶需求提供服務方案尋求增長。“我們優化後的GPU利用率可以超過95%,這個數字比很多客戶自己優化的結果還要高,而行業平均GPU利用率通常爲70%左右。”

此外,中美AI雲企業的市場定位也存在差異。美國的資本驅動模式聚焦大型企業客戶,而中國的技術驅動模式則將目光投向長尾市場。在生態建設理念方面,前者追求規模與效率,後者更強調普惠與可持續發展。

方磊認爲,數百萬企業、數千萬個人開發者,都亟需彈性且高性價比的GPU雲服務。他坦言,目前中國智能算力的短缺主要呈現結構性錯配的特徵。“如某廠商在某一地區設立了萬卡集羣,但當地的智能算力需求方可能需要在外地尋找服務器租用。目前公開市場上,大量AI計算芯片要麼掌握在頭部互聯網廠商手中,要麼以服務器(裸金屬)的形式出租,市場化的、面向大衆的、普惠的智能算力非常稀缺。”

談及發展目標,方磊表示,九章雲極希望成爲中國NeoCloud的定義者,"此前我們定義了'一度算力',未來希望探索出具備中國特色的AIDC運營模式”。他稱,DeepSeek-R1的問世已表明,低成本投入能博取優質的模型能力。這也意味着,能否爲數千萬開發者提供普惠算力服務,將成爲決定AI雲企業競爭力的重要考覈維度。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10