直擊WAIC丨如何緩解AI訓練「效率瓶頸」?摩爾線程張建中:打造AGI「超級工廠」

新浪科技
07/27

專題:2025世界人工智能大會

  新浪科技訊 7月27日午間消息,2025世界人工智能大會(WAIC 2025)於7月26-28日在上海舉辦。大會期間,摩爾線程首次提出了「AI工廠」理念,公司創始人兼CEO張建中在分享中表示,「為應對生成式AI爆發式增長下的大模型訓練效率瓶頸,摩爾線程將通過系統級工程創新,構建新一代AI訓練基礎設施,為AGI時代打造生產先進模型的「超級工廠」。

  據悉,摩爾線程提出的「AI工廠」,如同芯片晶圓廠的製程升級,需要實現從底層芯片架構創新、到集羣整體架構的優化,再到軟件算法調優和資源調度系統的全面升級。這種全方位的基礎設施變革,將推動AI訓練從千卡級向萬卡級乃至十萬卡級規模演進,以系統級工程實現生產力和創新效率飛躍。

  具體而言,這座「AI工廠」的智能「產能」,由五大核心要素共同決定,其效率公式可概括為:AI工廠生產效率=加速計算通用性×單芯片有效算力×單節點效率×集羣效率×集羣穩定性。摩爾線程將以GPU通用算力為基石,將通過先進架構、芯片算力、單節點效率、集羣效率優化與可靠性等協同等深度技術創新,將全功能GPU加速計算平臺能力轉化為工程級訓練效率與可靠性保障。

  在單芯片算力方面,摩爾線程的GPU單芯片基於MUSA架構的突破性設計,可集成AI計算加速、圖形渲染、物理仿真及超高清視頻編解碼能力,充分適配AI訓推、具身智能、AIGC等多樣化應用場景。且在計算精度方面支持從FP64至INT8的完整精度譜系,並通過FP8混合精度技術,在主流前沿大模型訓練中實現20%~30%的性能躍升。

  在內存與通信效率優化上,摩爾線程內存系統通過多精度近存規約引擎、低延遲Scale-Up、通算並行資源隔離等技術,實現了50%的帶寬節省和60%的延遲降低。在通信和互聯領域,獨創ACE異步通信引擎減少了15%的計算資源損耗,MTLink2.0互聯技術提供了高出國內行業平均水平60%的帶寬,為大規模集羣部署奠定了堅實基礎。

  在構建高效集羣的基礎上,穩定可靠的運行環境是「AI工廠」持續產出的保障。特別在萬卡級AI集羣中,硬件故障導致的訓練中斷會嚴重浪費算力。摩爾線程創新推出零中斷容錯技術,故障發生時僅隔離受影響節點組,其餘節點繼續訓練,備機無縫接入,全程無中斷。這一方案使KUAE集羣有效訓練時間佔比超99%,大幅降低恢復開銷。(文猛)

海量資訊、精準解讀,盡在新浪財經APP

責任編輯:王翔

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10