新浪科技讯 12月8日上午消息,近日,京东云JoyBuilder模型开发平台迎来全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练,成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台,且训练效率较开源社区版本提升3.5倍。基于软硬件深度调优和算法层面的突破,大幅提升了模型训练效率与稳定性,1亿+数据的千卡训练时间从15小时缩短至22分钟,加速具身智能迈向规模化落地。
据介绍,围绕具身智能模型训练,京东云AI Infra及相关团队基于JoyBuilder模型研发平台进行了全栈优化:
在具身数据链路优化方面,通过重构具身数据预处理与加载流程,JoyBuilder平台实现CPU数据处理与GPU计算异步执行,减少等待时间。针对海量具身小数据文件,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取,支持高并发访问。在1024卡集群上,读取带宽超过400GB/s,保障数据持续高速供给。
在具身模型计算优化方面,针对主流开源的VLA(视觉-语言-动作)模型的计算特点从Attention层、Token裁剪和训练后量化等多方位极致优化,全方位提升模型的训练效率。在具身模型基础设施方面:通过搭建3.2T RDMA后端网络,基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟,并在单点故障时快速恢复,支持长周期训练稳定运行。同时,基于云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率。
此外,京东云JoyBuilder模型开发平台,基于在全链路数据处理、模型计算效率和AI基础设施等的全面优化,支持业界当前最主流的LeRobot训练数据最新协议,并成为行业首家支持具身模型千卡级开源训练框架的AI开发平台。
责任编辑:杨赐