特斯拉披露百萬核心Dojo超算故障檢測技術,失誤一次數週訓練白費

市場資訊
昨天

  炒股就看金麒麟分析師研報,權威,專業,及時,全面,助您挖掘潛力主題機會!

IT之家 6 月 7 日消息,特斯拉昨日發文,向用戶介紹了其百萬核心級 Dojo 超算系統的故障核心檢測技術。

據介紹,該公司開發的 Stress 工具能夠在不停機的狀態下,跨處理器乃至跨集羣檢測易引發靜默數據錯誤(SDC)的核心。

特斯拉表示,Dojo 是當前全球唯二現存的最大處理器之一。這種晶圓級芯片採用整片 300mm 晶圓製成,單芯片尺寸已達物理極限。

由於 Dojo 大芯片的超高複雜性,即使在製造過程中也難以 100% 檢測缺陷晶粒,而靜默數據錯誤的檢測更困難。

雖然 SDC 在所有硬件上都難以避免,但 Dojo 處理器有着8,850 個核心、18000A 電流及 15000W 的超高功耗,這會嚴重放大其影響,因此所有核心必須按設計運行,否則單個數據錯誤便可毀掉整個耗時數週才能完成 AI 訓練成果。

特斯拉將晶圓級 Dojo 處理器稱爲“訓練模塊”,每個模塊包含 25 個 645mm² 的 D1 Chip,採用臺積電 InFO_SoW 技術封裝,集成 354 個定製的 64 位 RISC-V 核心(含 1.25MB SRAM 用於存儲數據和指令),以 5×5 集羣排列並通過機械網絡互聯,可提供 10TB/s 帶寬。每個 D1 還支持 4TB/s 片外帶寬,因此單個“訓練模塊”總共具備 8,850 核心,支持 8/16/32/64 位整數及多種數據格式。

爲應對核心故障風險,特斯拉最初採用差分模糊測試技術:生成隨機指令集並同步發送至所有核心,通過比對輸出結果識別差異。但因爲主機與訓練模塊間通信開銷過大,該過程耗時明顯過長。

爲了提高效率,特斯拉想辦法改進了其檢測技術,這個過程主要通過三項創新來完成:

特斯拉表示,該技術不僅適用於訓練模塊層級或集成 12 個模塊的機櫃層級,更可在集羣層級運作,實現百萬級運行核心中的故障定位。

特斯拉報告顯示,經優化配置的 Stress 監測系統在 Dojo 集羣中檢出大量故障核心。檢測耗時分佈呈現兩極分化:多數缺陷在執行 1GB-100GB 負載指令(數秒至數分鐘)時被發現;難檢測缺陷需執行 1000GB 以上指令(數小時)。

需強調的是,Stress 工具測試負載輕量且核心自包含,支持後臺測試無需離線。最終僅故障核心會被禁用,且每個 D1 芯片可容忍數個核心失效而不影響整體功能。

特斯拉透露,Stress 工具除檢測故障核心外,還能發現罕見設計級缺陷並通過軟件調整修復。在監測系統廣泛部署期間,多個底層軟件問題也被發現並修正。IT之家從官方獲悉,目前 Stress 工具已全面集成至運行中的 Dojo 集羣,在 AI 訓練期間實施硬件健康監測。特斯拉表示,通過該監測觀察到的故障率與谷歌Meta 公佈的數據相當,表明監測工具與硬件水準達到行業同等水平。

海量資訊、精準解讀,盡在新浪財經APP

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10