揭祕特斯拉 FSD 核心:端到端算法的「三大難點」與「獨門解法」以及對語音控車的想法

Vehicle
昨天

特斯拉 AI 負責人 Ashok Elluswamy 在最近2026 ScaledML Conference 的演講中又一次深入剖析了 FSD(完全自動駕駛)背後的技術哲學,為什麼要徹底拋棄傳統的規則代碼?端到端(End-to-End)架構到底難在哪裏?特斯拉又是如何用「世界模型」和「高斯潑濺」等黑科技逐一擊破的?也分享了特斯拉對VLA語音控車的一些想法。

大家閱讀下文的時候看到ppt圖片肯定覺得眼熟,之前不少博主都科普了很多遍,但我看之前的解讀都沒有特別深度,所以這兩天花時間像素級的看了一遍又一遍,按照如下章節解讀:

為什麼要破除規則採用端到端算法?

端到端的難點?特斯拉的解法!

FSD的解法,適用於Physical AI的機器人

特斯拉有沒有使用類似VLA的語音控車,未來會不會用?

希望給大家帶來一些有用的信息。

在解讀之前,先鋪墊下特斯拉的系統優勢,我們之前文章《特斯拉FSD算法技術解讀 - 國內FSD測試特斯拉真輸了麼?》老早也就是指出了特斯拉FSD的基本優勢 -行雲流水老司機。

Ashok Elluswamy也在演講中開頭就講到,特斯拉使用端到端(End-to-End)的駕駛系統來構建自動駕駛軟件。他單一的端到端大模型,運行頻率是36hz,這個36hz的意思是1s鍾產生36個車輛運動輸出,也就是27.8ms就有一個運動動作輸出,而很多競品基本還在10hz左右。你可以類比特斯拉的FSD猶如你看的手機和電視螢幕是高刷,動作會更流暢和絲滑。

它接收原始傳感器輸入——主要是來自車上 8 個攝像頭的視頻,但也包括導航指令、運動學狀態(如車速、轉向角度等)、音頻等——然後直接輸出車輛應該如何表現,即下一步的動作,比如轉向、加加速度(jerk)等。

這就是特斯拉FSD的大模型一個高階的概述。

為什麼要破除規則採用端到端算法?

Ashok Elluswamy總結了三個原因,分別是人類價值觀編碼極其困難,感知、預測和規劃之間的接口定義不清,駕駛行為所有行為緊密耦合。這些導致規則化的方法沒有未來。

1.Codifying human values is incredibly difficult

(將人類價值觀編碼極其困難)

現實當中的駕駛不是非黑即白的邏輯題,而是充滿了無數微小的「電車難題」和價值權衡。程序員無法通過寫 if-else 代碼來窮盡所有人類在駕駛時的判斷邏輯。

Ashok Elluswamy在演講中舉了一個水坑 vs. 對向來車的例子:

場景:你的車道前方有一個水坑,想要繞過去就必須壓線,甚至借用一點對向車道。

規則衝突:你有兩條規則。規則A是「避開障礙物(水坑)」,規則B是「嚴禁逆行」。

人類的直覺: 如果對向沒車,或者對向車很遠,或者水坑很深,我們會選擇壓線繞行;如果對向車很快,或者水坑只是淺水,我們會選擇直接壓過水坑。

編碼的困境: 如果要寫代碼,你需要定義水坑多深纔算深?對向車多遠纔算遠?這就陷入了「抽象泄漏(Leaky Abstractions)」。你想寫死規則,但現實總有例外。

端到端的解法: 不寫規則,讓 AI 看成千上萬個人類司機在這種情況是怎麼做的。AI 會學習到一種隱性的「價值觀概率分佈」,而不是僵化的代碼。

2. Interface between perception, prediction and planning is ill-defined(感知、預測和規劃之間的接口定義不清)

在傳統的模塊化架構中,模塊之間需要傳遞信息。上游(感知)必須決定「拋棄什麼信息」和「保留什麼信息」傳給下游(規劃)。這個「接口」怎麼定義,往往會丟失關鍵的細節信息。

Ashok Elluswamy在演講中舉了一個「小雞與鵝的腿部動作」的例子:

傳統困境: 假設感知模塊識別出前方有「一隻鳥」。它傳給規劃模塊的信息可能只是 Object: Bird, Location: (x,y)。規劃模塊收到這個信息,不知道該停還是該走。因為規劃模塊「看」不到鳥的動作細節。

接口定義的荒謬: 為了解決這個問題,你可能需要修改接口,增加一個字段 Leg_Moving: True/False。這就變成了一個笑話——難道要專門寫一個「雞腿探測器」嗎?世界上有無數種物體,你不可能為每種物體定義專屬的接口字段。

端到端的解法: 消除接口。原始的視頻像素(包含了雞腿在動的信息)直接流向控制端。AI 不需要被告知「這是一隻雞」,它只需要學會「看到這種像素模式(腿動),我就得停下來」,信息在系統中是無損流動的。

3. All behaviors tightly coupled(所有行為緊密耦合)

一般傳統的軟件工程喜歡「解耦」(Decoupling),即把大問題拆成獨立的小問題。但在機器人和自動駕駛領域,感知及控制是分不開的,拆分會導致延遲和誤判。

Ashok Elluswamy在演講中舉了一個「高速避險與延遲」的例子:

緊密耦合的現實: 你的車速決定了你需要看多遠(感知服務於控制);你看到的危險程度決定了你剎車的力度(控制依賴於感知)。

傳統困境: 如果分為三個模塊,感知處理完 -> 傳給預測 -> 傳給規劃。每一步都有延遲(Latency)。當規劃模塊決定剎車時,世界已經變了(幾十毫秒在高速下就是好幾米)。

三階智能案例: 演講中提到前車失控的案例。AI 觀察到前車微小的橫擺角速度異常(Perception),瞬間預判它會彈回來(Prediction),並立刻決定猛踩剎車(Planning)。在端到端網絡中,這三個步驟是在同一個神經網絡的前向傳播中瞬間、整體完成的。

總結下來就是,試圖用人類的邏輯語言(代碼規則)去描述複雜的物理世界是行不通的。

因為人類價值觀太複雜(難以編碼);

因為世界細節太豐富(接口無法定義);

因為反應要求太快且環環相扣(模塊化導致割裂)。

所以特斯拉選擇了端到端:讓數據說話,用神經網絡的複雜性去匹配物理世界的複雜性。

端到端的解法,將所有行為視為一個整體任務。網絡根據環境直接輸出動作,確保了確定性的低延遲(演講中提到的 36Hz 控制頻率),並且能利用整體上下文做出反應,而不是基於過時的、被切割的信息片段。

端到端的難點?特斯拉的解法!

特斯拉意思是端到端是目前的最優解,但是要落地端到端並不是一句話的事情,他至少有以下幾個難點:

1. 維度的詛咒 (Curse of dimensionality)

這個挑戰指的是輸入數據的極度龐大與輸出動作的極度精簡之間的巨大鴻溝。

輸入端的數據爆炸:特斯拉車輛擁有 8 個高分辨率攝像頭(500萬像素),運行在高幀率下。為了做出正確的駕駛決策(例如在停車標誌處判斷誰先到),系統需要理解過去一段時間的歷史上下文(比如 30 秒)。將這些視頻流和歷史數據加在一起,神經網絡每時每刻需要處理大約 20 億個 Token(信息單元)。

輸出端的極度壓縮:儘管輸入了海量信息,最終的輸出卻非常簡單,只有 2 個動作:轉向角度和加速/剎車力度。

核心難點:因果關係的提取將 20 億個 Token 壓縮為 2 個動作,難點在於區分「真正的因果」與「虛假的關聯」。

例子: 車輛停下來,是因為前面的車亮了剎車燈(真因果),還是因為路邊的一棵樹剛好晃動了一下(虛假關聯)?

在海量的數據中,如果只給模型看平庸的駕駛視頻(比如一直在高速上直行),模型很容易學到錯誤的關聯。因此,特斯拉必須從車隊每天產生的 500 年駕駛數據中,挖掘出極少數的「有趣數據」(如校車、事故、罕見交通狀況)來訓練模型,讓它學會正確的因果邏輯。

這裏特斯拉算是告訴大家他有一個獨門絕技就是海量數據裏面淘金的能力。特斯拉不會收集所有數據,而是通過「觸發器」篩選有價值的信息:

極小神經網絡(Tiny NNs):在車端運行微型模型,專門捕捉特定場景(如緊急車輛、特殊障礙物)。

事後驗證:評估系統的預測與實際發生的情況是否一致。

人工干預:任何人類駕駛員接管或干預 FSD 的時刻,都是極佳的學習樣本。

狀態空間劇變:當環境發生劇烈變化或出現罕見狀況時觸發採集。

2. 可解釋性與安全保證 (Interpretability and safety guarantees)

端到端神經網絡常被視為「黑盒」,這帶來了安全隱患:如果車撞了,我們怎麼知道它是沒看見障礙物,還是判斷錯了?特斯拉表示他們能夠打破「黑盒」,他的神經網絡不僅僅是在做簡單的像素匹配,而是真正理解了物理世界。

這次特斯拉倒是告訴大家他的解法:採用思維鏈CoT與過程驗證。大家是不是一聽端到端大模型就是,從光子到電機信號?錯!特斯拉的基礎模型有多重輸出 (Foundation model predictions)。

雖然這是一個端到端的模型(輸入像素 -> 輸出控制),但它被設計為同時預測許多「人類可理解的中間結果」 (interpretable outputs)。這些輸出就像是插入模型內部的「探針」,用來監測模型是否真正理解了世界。

具體包括以下幾個維度:

物理世界的理解 (3D occupancy and flow):模型會輸出它眼中的 3D 空間佔用情況(哪裏有東西,哪裏是空的)以及物體的流動(速度、方向)。如果車撞了障礙物,可以檢查這一層:是模型沒看見障礙物(感知錯誤),還是看見了卻沒剎車(控制錯誤)?

物體識別:模型會明確標出這是車、那是人、那是自行車。證明模型具備語義理解能力,而不僅僅是處理像素顏色。

交通規則與環境:識別紅綠燈、路標、車道線、道路邊界、限速牌等。驗證模型是否遵守了人類社會的交通規則。

交互預測:預測其他交通參與者是否會與自己發生交互(例如:那個行人會不會突然衝出來?那輛車會不會加塞?)。 展示模型的預判能力和風險評估邏輯。

最後,這些東西會形成自然語言解釋 (Decisions expressed as plain language):這是最直觀的一層。模型可以直接用英語輸出它的決策理由。 模型可能會輸出:「我正在減速,因為前方檢測到一名行人準備橫穿馬路。」這讓調試變得像對話一樣簡單,極大地增強了人類對系統的信任。

如上圖一樣,大模型輸出動作,但同時會輸出環境理解的一些特徵,然後形成思維鏈推理形成邏輯閉環。當然特斯拉並沒有像國內廠商一樣,把這個思維鏈秀出來,估計特斯拉如果秀出來,大家也就可以蒸餾特斯拉的模型了。

對於物理世界的理解,特斯拉有一個獨門絕技就是,特斯拉自研的生成式高斯潑濺(Generative Gaussian Splatting)技術。

特斯拉的神經網絡不僅輸出駕駛動作,還能在220毫秒內實時重建車輛周圍的 3D 世界。這可以證明端到端大模型確實識別出了車輛、行人及其位置和形狀,而不僅僅是處理二維像素。

現在自駕行業,3D高斯已經很火了,但是特斯拉表示大家用的傳統3D高斯,需要30分鐘才能生成場景,同時失真很難用在動態物體上面。

對於推理,特斯拉採用的獨門絕技是「系統 2 思維」(System 2 Thinking),這個詞很熟悉,理想之前講過的快慢系統,特斯拉應該也採用了,特斯拉的端到端神經網絡不僅能「看見」像素,還能像人類一樣閱讀、思考和解釋複雜的交通邏輯。

這個可以看我們之前視頻。

複雜的路障與繞行,圖片左側是車輛的前視攝像頭畫面。前方道路被橙白相間的施工護欄堵死,並立有「ROAD CLOSED THRU TRAFFIC」(道路關閉,禁止通行)和綠色的「DETOUR」(繞行)標誌。

AI 成功檢測並標記了「detour sign」(繞行標誌)和「construction barrier」(施工護欄)。然後採用自然語言邏輯推理產生動作結論。

3. 評估,如何驗證你確實行。

特斯拉表示在實現自動駕駛過程中面臨的第三個、也是被 Ashok Elluswamy 稱為「最難」的挑戰是評估,如何驗證你確實行。

特斯拉指出了傳統機器學習評估方法在自動駕駛領域的侷限性:

損失函數(Loss)並非萬能: 在常規 AI 訓練中,我們會看「損失函數」是否下降。但在駕駛中,即便損失值非常低,模型也可能在某個關鍵的「長尾」場景(如突然衝出的行人)中犯下致命錯誤。

現在大家的虛擬仿真測試一般都是開環(Open-loop)的,AI 只是在看視頻預測人類會怎麼開,它並不實際控制車輛,而閉環的環境中,自動駕駛的每一個動作都會改變接下來的視覺輸入。所以在開環仿真測試下表現良好的模型,在閉環實際行駛時,微小的誤差可能會不斷累積,最終導致車輛偏離航道或發生碰撞。

所以特斯拉採用的是多模態與行動後果預測

特斯拉認為避免事故的方法不止一種。面對障礙物,你可以剎車,也可以向左或向右繞行。評估指標必須能夠捕捉並認可這些不同的、但同樣安全的路徑,而不是強制要求 AI 只做唯一的「標準動作」。

特斯拉提出了一種更高級的評估方案「行動後果預測(Consequence-of-action)」,不僅僅看 AI 做了什麼,還要看它是否預見到了動作的後果。

這就引出了特斯拉的神經網絡閉環模擬器(Neural Network closed-loop simulator),也被稱為「世界模型」。這是特斯拉為了在不依賴真實道路測試的情況下,實現對自動駕駛系統的閉環評估而構建的一個虛擬世界生成器。

採用這個神經網絡閉環模擬器,就能解決提到的「開環 vs 閉環」評估難題。他構建了一個虛擬考場: 有了這個模型,特斯拉就可以把自動駕駛策略模型(Policy Network)放進去。

然後進行閉環測試:策略模型看到 t 時刻的畫面 -> 決定做一個動作 -> 世界模擬器根據動作生成 t+1 時刻的新畫面 -> 策略模型再看新畫面 -> 再做動作……

這樣 AI 就可以在一個完全由神經網絡生成的虛擬世界裏「練車」。哪怕 AI 在這裏撞車了(比如生成了碰撞的視頻畫面),現實中也沒有任何損失。這讓特斯拉能夠安全地測試各種極端危險的邊緣場景。

裏面的World Sim NN就是一個世界模型,他採用特斯拉「廉價」收集的‘狀態-動作’數據進行訓練」。這些數據都是特斯拉車隊回傳回來的真實海量數據case,而且無需人工標註: 訓練這個模型不需要人類去畫框或打標籤。

特斯拉通過開發「生成式世界模擬器」,讓 AI 在虛擬但真實的閉環環境中進行數百萬次的極端測試,從而解決了這一難題。

FSD的解法,適用於Physical AI的機器人

特斯拉表示,這一整套系統——端到端駕駛網絡和世界模擬器——不僅適用於自動駕駛,也是機器人技術的基礎模型(Foundation model)。 同樣的視頻生成網絡可以泛化到生成 Optimus 機器人行走的室內場景。這也是可控的,你可以輸入「直行」或「左轉」的動作,視頻生成會正確反映這些動作。同樣,它也適用於機械臂的操作(如打開抽屜)。

特斯拉有沒有使用語音控車?

根據Ashok的現場問答,目前特斯拉車輛確實有 Grok,你可以和它聊天。另外,FSD確實有自己的音頻模型,但對於FSD來講,目前不是用於自然語言交互,更多是用於理解汽車周圍的噪音(如警笛和緊急車輛)。

在未來,特斯拉會擁有完全集成的語音控制命令來控制車輛。但他們認為現在還為時過早。這開啓了一個全新的測試領域。例如,你不應該能告訴汽車去撞車,然後它就真的撞了。為了防止使用語音的對抗性攻擊,需要進行大量的安全工作。目前這還不值得這麼麻煩。

這個和我們之前文章《特斯拉 Grok + FSD = VLA?》推斷是一致的。

最後

希望,解釋得比較清楚。不過大概FSD的原理比較簡單,相信國內各家主機廠真正搞算法的人都懂這個方法論,畢竟華人不少在特斯拉,灣區碰一碰party一下,交換信息都熟了。但是各家投入的資源個核心落地能力確不一樣,所以一般都是照虎畫貓了。

參考資料以及圖片

Ashok Elluswamy 在最新2026 ScaledML Conference 的演講

*未經准許嚴禁轉載和摘錄-獲取本文參考資料方式:加入我們的知識星球可以下載公衆號海量參考資料包含以上參考資料。

>>>>相關推薦

特斯拉世界模型專利全解讀:從「看見」到「想象」,Physical AI 的進化奇點

萬億薪酬背後,馬斯克給特斯拉押注的是什麼產品和技術路線?

CES 2026 老黃演講的汽車解讀:推理和Agentic代理的快速落地,L4的安卓時刻開啓

深度解析小鵬汽車2026新品會:Physical AI - VLA智駕、VLM座艙,依然數不完的SKU

特斯拉最新FSD V14.2的功能更新和回退項目

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10