傑西卡 發自 副駕寺
智能車參考 | 公衆號 AI4Auto
老黃人在北京侃侃而談,沒想到轉眼老家被“偷”,客戶變對手。
特斯拉的最新消息,Dojo二代芯片量產進入倒計時,性能比第一代提高10倍,算力直逼英偉達Blackwell B200芯片。
這很可能會讓特斯拉FSD實現“自產自訓”,從此擺脫英偉達的束縛,甚至能向外部提供算力。
更關鍵的是,特斯拉表示,Dojo 2超算能讓數據訓練速度猛增一個數量級,也意味着FSD的優化能再上一個臺階。
不過在馬斯克這兒,還不夠。
算力更強、性能巔峯的Dojo第三代芯片,時間表也定了,明年就推出。
特斯拉Dojo 2量產倒計時
據外媒平臺Not a Tesla App稱,特斯拉新一代Dojo 2芯片,已和全球最大的半導體製造商——臺積電達成合作,年底前進入量產階段。
臺積電方面也透露過,第二代Dojo的訓練模塊已投入生產,且採用了臺積電最新的封裝技術。
特斯拉多次表示,Dojo 2芯片已經接近英偉達Blackwell B200水平——這是英偉達最新一代的AI芯片,性能也最強。
在馬斯克的另一家公司X平臺上,也有人分享了這個消息:
不少“特粉”表示,足夠令人振奮。
因爲這意味着,特斯拉實現了從傳感器到超算的垂直AI能力,即將擺脫英偉達的束縛:
甚至,特斯拉未來可以向外提供算力,成爲英偉達的對手。
並且自研芯片最利好的就是成本,特斯拉將有能力以前所未有的速度擴大規模:
還有網友已經“預見”到未來的驚天鉅變,認爲Dojo 2很有可能會改變汽車和AI行業的遊戲規則:
也有人對真實性存疑,畢竟,馬斯克定下的ddl總是設定在年末,但真正兌現的情況並不多見:
不過,馬斯克倒是在評論區現身說法,回應很簡潔:“Dojo 2是一臺很好的計算機”,算是暗戳戳地肯定了量產時間屬實。
緊接着他又講了個經典的計算機硬件性能笑話——
Dojo 2可以以每秒十億幀的速度玩《孤島危機》。
提醒一下不知道的朋友,《孤島危機》是2007年發行的一款遊戲,起初對配置要求極高,不知道燒壞了多少顯卡,被玩家一致調侃爲“顯卡危機”。
後來是英偉達向遊戲官方提供了技術支持,英偉達曾多次用“可以玩《孤島危機》”,證明其配置硬核。
現在,這個玩笑也被馬斯克也拿出來證明Dojo二代芯片的性能,算是裏裏外外都和英偉達對標了。
那麼Dojo到底有多厲害,能和全球第一的AI公司槓上?
馬斯克佈局6年的關鍵基建
所謂Dojo,就是馬斯克親自推動、爲了訓練FSD神經網絡而自研的AI超級計算平臺。
關於“Dojo”的概念,最早是在2019年特斯拉的自動駕駛日上,被馬斯克和AI團隊首次提及。
馬斯克多次強調,視覺是實現FSD的關鍵,強大的神經網絡需要海量視頻數據訓練。
特斯拉的純視覺方案,每天會產生1600億幀的視頻數據。
這些視頻需要逐一進行分析、標記和處理,幫助FSD不斷學習新的邊緣場景(即不可預測的罕見情況),這對於堅持不用激光雷達的特斯拉而言至關重要。
而當時,即便強如英偉達,其算力也很難滿足特斯拉對大規模視頻訓練的需求,並且缺乏針對視頻訓練的專用指令集。
這讓特斯拉產生了自研芯片、打造高性能視頻訓練超算的念頭。因爲一旦成功,特斯拉的FSD訓練效率將從根本上被改變。
在這種背景下,第一代Dojo及其自研芯片D1,首次亮相於2021年的特斯拉AI Day上,不過當時還只是Demo。
D1芯片是Dojo的核心,由臺積電7nm工藝製造,有500億個晶體管,芯片面積爲645mm²,小於英偉達的A100(826 mm²)和AMD的Arcturus(750 mm²)。
每個芯片有354個訓練處理節點,以及440MB的靜態隨機存儲器,BF16精度下算力高達362TFLOPs,一塊芯片功耗只有400W。
D1芯片測試完成後,會被封裝到Dojo訓練瓦片(Tile)上,每個瓦片容納25顆D1,這就是最終的Dojo。
當時的Dojo有超過50萬個訓練節點,每個模塊算力爲9 petaflops,每秒36 TB的區塊外帶寬。
而120個Dojo組合在一起,就是當時超算的頂級配置——Dojo ExaPOD,集結3000塊D1芯片,擁有超1百萬個訓練節點,算力達到1.1EFLOP。
不過,特斯拉也表示,當時的D1芯片還不能完全爲Dojo提供計算支持,需要和英偉達的GPU一起工作,之後會逐步擴大D1和Dojo使用的佔比。
次年9月,特斯拉展示了首個Dojo機櫃,進行了2.2兆瓦的負載測試,還演示了運行Stable Diffusion模型生成“火星Cybertruck”圖像的能力,以證明其AI訓練通用性。
直到2024年1月,特斯拉投資5億美元(約36億元),在紐約工廠打造了Dojo集羣,承擔起特斯拉5%~10%的智能輔助駕駛訓練數據量。
只不過,特斯拉這時候仍是“自研+合作”雙路徑運行,沒有擺脫對英偉達的依賴。
但這一切,可能都會隨着今年Dojo 2芯片的量產而改變。
據特斯拉透露,新一代Dojo芯片仍由臺積電代工,解決了上一代Dojo的靜默數據損壞(SDC)和功耗問題,性能將比上一代提升10倍。
靜默數據損壞,就是超算存在有缺陷的節點,可能導致耗時數週的AI模型訓練產生錯誤結果,或使收斂速度顯著放緩,並且這種缺陷很難被第一時間檢測。
而Dojo 2實現性能大漲,原因來自多方面,包括優化了D1的核心架構,採用更密集的mesh網絡互聯架構擴展帶寬,模塊化規模更大、集成度更高等等。
其中最值得一提的是臺積電的最新封裝技術——InFO-SoW。
這是一種晶圓級系統集成技術,就是把整個晶圓當作一個整體,把多顆芯片、電源模塊、散熱結構等直接集成在晶圓上,而不再是傳統方式中先切割晶圓,再單獨封裝芯片的方法。
Dojo將直接在整片晶圓上集成25個計算芯片,在645平方毫米的芯片上放置500億個晶體管,單晶粒提供362 TFlops的運算能力。
也就是說,一個晶圓就相當於一個超算模塊,單一Dojo就擁有9 Petaflops(每秒千兆次)的算力。
同時,新的封裝技術取消傳統封裝中的基板(PCB)和中介層,芯片之間通過超高密度金屬佈線直接進行高帶寬連接,數據傳輸速度翻倍增長。
散熱模組則被直接集成在晶圓背面,熱量通過金屬板快速導出,顯著改善了散熱問題。
據特斯拉介紹,Dojo 2已經能夠達到接近、甚至部分超越英偉達B200的水平。
例如其單訓練瓦片算力可達1000 TOPS,高於B200單芯片的900 TOPS;Dojo 2的瓦片模塊間帶寬達36TB/s,也是B200的NVLink 5(10TB/s)的3.6倍。
也就是說,特斯拉或許很快就能脫離外部GPU的依賴,實現“計算自由”。
而且,Dojo雖然是爲FSD而生,卻也適用於其他應用領域,比如同樣需要“視覺”的特斯拉機器人擎天柱。
此外,Dojo 2還不是特斯拉超算實力的終點。
馬斯克曾表示,Dojo實現起來“可能不抱希望”,並且應當是“三代出巔峯”。Dojo 3將是特斯拉超算的最強水平,性能還會是Dojo 2的40倍。
而Dojo 3的推出時間已經不遠,預計2026年就會問世。
馬斯克不愧是馬斯克。
從公開首次提出概念,到二代產品即將追平世界頂尖水平,不過六年時間。
其實透過特斯拉的例子看中國汽車行業,同樣大有啓發。
AI基礎設施,中國車企的新戰場
馬斯克之前,中國車圈沒有類似的先例。
現在,雖然能完全獨立的超算芯片還沒真正看到落地,但他的做法已經給了中國車圈啓發。
自動駕駛發展,有三大核心要素:算力、數據、算法,它們也被統稱爲AI基礎設施。
現在,車圈已經有不少玩家和特斯拉類似,在這些AI基礎設施上佈局。
算法方面,不用多說,這是各家車企最先爭奪的智能化戰場。
數據方面,比亞迪在深圳構建了超級數據閉環平臺,數據每日回傳規模達PB級別,蔚來在上海與合肥建立了雙數據中心,與部分外部雲平臺(阿里、AWS)一起協同工作。
算力方面,有蔚來自研的神璣NX9031芯片,小鵬自研的圖靈芯片。
也有比亞迪成立先進技術研發中心,自建AI超算平臺,吉利、長城、蔚小理等也都打造了自己的智算中心。
通過這些車企動作,可以得出一個汽車行業更遠的趨勢是:
車企智能化戰場,已經從單純的智能化功能疊加,轉向更持久的AI基建能力。
—聯繫作者—