新浪科技訊 12月8日上午消息,近日,京東雲JoyBuilder模型開發平臺迎來全新升級,成功支撐業界頂尖模型GR00T N1.5的千卡訓練,成為行業首家支持具身智能千卡級LeRobot開源訓練框架的AI開發平臺,且訓練效率較開源社區版本提升3.5倍。基於軟硬件深度調優和算法層面的突破,大幅提升了模型訓練效率與穩定性,1億+數據的千卡訓練時間從15小時縮短至22分鐘,加速具身智能邁向規模化落地。
據介紹,圍繞具身智能模型訓練,京東雲AI Infra及相關團隊基於JoyBuilder模型研發平臺進行了全棧優化:
在具身數據鏈路優化方面,通過重構具身數據預處理與加載流程,JoyBuilder平臺實現CPU數據處理與GPU計算異步執行,減少等待時間。針對海量具身小數據文件,自研的高性能並行文件系統雲海JPFS通過分佈式元數據管理與智能預取,支持高併發訪問。在1024卡集羣上,讀取帶寬超過400GB/s,保障數據持續高速供給。
在具身模型計算優化方面,針對主流開源的VLA(視覺-語言-動作)模型的計算特點從Attention層、Token裁剪和訓練後量化等多方位極致優化,全方位提升模型的訓練效率。在具身模型基礎設施方面:通過搭建3.2T RDMA後端網絡,基於多軌道優化、拓撲感知調度與智能震盪抑制,保障千卡間集合通信的高吞吐與低延遲,並在單點故障時快速恢復,支持長週期訓練穩定運行。同時,基於雲原生的AI數據湖優化了數據調度與流水線,提升端到端處理效率。
此外,京東雲JoyBuilder模型開發平臺,基於在全鏈路數據處理、模型計算效率和AI基礎設施等的全面優化,支持業界當前最主流的LeRobot訓練數據最新協議,併成為行業首家支持具身模型千卡級開源訓練框架的AI開發平臺。
責任編輯:楊賜