京东云JoyBuilder升级,具身智能模型训练效率提升3.5倍

新浪科技
Dec 08

  新浪科技讯 12月8日上午消息,近日,京东云JoyBuilder模型开发平台迎来全新升级,成功支撑业界顶尖模型GR00T N1.5的千卡训练,成为行业首家支持具身智能千卡级LeRobot开源训练框架的AI开发平台,且训练效率较开源社区版本提升3.5倍。基于软硬件深度调优和算法层面的突破,大幅提升了模型训练效率与稳定性,1亿+数据的千卡训练时间从15小时缩短至22分钟,加速具身智能迈向规模化落地。

  据介绍,围绕具身智能模型训练,京东云AI Infra及相关团队基于JoyBuilder模型研发平台进行了全栈优化:

  在具身数据链路优化方面,通过重构具身数据预处理与加载流程,JoyBuilder平台实现CPU数据处理与GPU计算异步执行,减少等待时间。针对海量具身小数据文件,自研的高性能并行文件系统云海JPFS通过分布式元数据管理与智能预取,支持高并发访问。在1024卡集群上,读取带宽超过400GB/s,保障数据持续高速供给。

  在具身模型计算优化方面,针对主流开源的VLA(视觉-语言-动作)模型的计算特点从Attention层、Token裁剪和训练后量化等多方位极致优化,全方位提升模型的训练效率。在具身模型基础设施方面:通过搭建3.2T RDMA后端网络,基于多轨道优化、拓扑感知调度与智能震荡抑制,保障千卡间集合通信的高吞吐与低延迟,并在单点故障时快速恢复,支持长周期训练稳定运行。同时,基于云原生的AI数据湖优化了数据调度与流水线,提升端到端处理效率。

  此外,京东云JoyBuilder模型开发平台,基于在全链路数据处理、模型计算效率和AI基础设施等的全面优化,支持业界当前最主流的LeRobot训练数据最新协议,并成为行业首家支持具身模型千卡级开源训练框架的AI开发平台。

海量资讯、精准解读,尽在新浪财经APP

责任编辑:杨赐

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10