炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
IT之家 6 月 7 日消息,特斯拉昨日发文,向用户介绍了其百万核心级 Dojo 超算系统的故障核心检测技术。
据介绍,该公司开发的 Stress 工具能够在不停机的状态下,跨处理器乃至跨集群检测易引发静默数据错误(SDC)的核心。
特斯拉表示,Dojo 是当前全球唯二现存的最大处理器之一。这种晶圆级芯片采用整片 300mm 晶圆制成,单芯片尺寸已达物理极限。
由于 Dojo 大芯片的超高复杂性,即使在制造过程中也难以 100% 检测缺陷晶粒,而静默数据错误的检测更困难。
虽然 SDC 在所有硬件上都难以避免,但 Dojo 处理器有着8,850 个核心、18000A 电流及 15000W 的超高功耗,这会严重放大其影响,因此所有核心必须按设计运行,否则单个数据错误便可毁掉整个耗时数周才能完成 AI 训练成果。
特斯拉将晶圆级 Dojo 处理器称为“训练模块”,每个模块包含 25 个 645mm² 的 D1 Chip,采用台积电 InFO_SoW 技术封装,集成 354 个定制的 64 位 RISC-V 核心(含 1.25MB SRAM 用于存储数据和指令),以 5×5 集群排列并通过机械网络互联,可提供 10TB/s 带宽。每个 D1 还支持 4TB/s 片外带宽,因此单个“训练模块”总共具备 8,850 核心,支持 8/16/32/64 位整数及多种数据格式。
为应对核心故障风险,特斯拉最初采用差分模糊测试技术:生成随机指令集并同步发送至所有核心,通过比对输出结果识别差异。但因为主机与训练模块间通信开销过大,该过程耗时明显过长。
为了提高效率,特斯拉想办法改进了其检测技术,这个过程主要通过三项创新来完成:
特斯拉表示,该技术不仅适用于训练模块层级或集成 12 个模块的机柜层级,更可在集群层级运作,实现百万级运行核心中的故障定位。
特斯拉报告显示,经优化配置的 Stress 监测系统在 Dojo 集群中检出大量故障核心。检测耗时分布呈现两极分化:多数缺陷在执行 1GB-100GB 负载指令(数秒至数分钟)时被发现;难检测缺陷需执行 1000GB 以上指令(数小时)。
需强调的是,Stress 工具测试负载轻量且核心自包含,支持后台测试无需离线。最终仅故障核心会被禁用,且每个 D1 芯片可容忍数个核心失效而不影响整体功能。
特斯拉透露,Stress 工具除检测故障核心外,还能发现罕见设计级缺陷并通过软件调整修复。在监测系统广泛部署期间,多个底层软件问题也被发现并修正。IT之家从官方获悉,目前 Stress 工具已全面集成至运行中的 Dojo 集群,在 AI 训练期间实施硬件健康监测。特斯拉表示,通过该监测观察到的故障率与谷歌和 Meta 公布的数据相当,表明监测工具与硬件水准达到行业同等水平。
Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.