最近AI 行業熱門的ICCV會議召開,其中有一個workshop叫做「Distillation of Foundation Models for Autonomous Driving」可以翻譯成「自動駕駛基礎模型的蒸餾」,其實這是他的第二次workshop,第一次是在今年的CVPR上,我們之前文章《揭祕小鵬自動駕駛「基座模型」和 「VLA大模型」》就是來自於那次workshop Liu xianming先生的演講。
這次workshop上特斯拉現任的AI VP Ashok Elluswamy 做了一個題為Building Foundational Models for Robotics at Tesla的演講,其中流出一張PPT的照片。
這頁PPT的標題是:Interpreatability and safety guarantees looks more like this 可解釋性和安全保障看起來更像這樣。
下面的圖形表達的意思是:
視覺、導航地圖、車輛運動狀態、聲音輸入大模型然後,輸出動作,但同時還輸出全景分割panoptic segmentation、3D Occ佔用、3D Gaussian、語言等這些要素用來推理,推理產生的結論也會輸出給動作。

根據這頁PPT標題,Jack猜測他這頁PPT想要表達的是模型應該具有可解釋性和安全保障。
並大概表達大模型可以直接根據輸入直接輸出動作,但同時大模型用類似於全景分割,3D occ以及高斯、語言模型等世界模型的構建方式來推理解釋,甚至影響最終動作。
這個PPT透露了特斯拉構建基礎模型的一些想法思路,也透露了構建世界模型的一些算法。
首先關於世界模型,通俗一點講我們每個人都有一套世界模型,也就是我們怎麼去理解這個世界,理解這世界就是通過視覺感知3D物理形態+時間關係和語言文字交互感知,來構建對於世界的理解和預測。
機器人和自動駕駛車輛也類似,人類的世界不能離開圖形、時間、語言,那麼自動駕駛和機器人顯然也不能。
人類的常用的傳感器攝像頭,他的感知是2D的,對於自動駕駛和機器人他們如何將其形成3D,這就是成了基於攝像頭的視覺算法挑戰和核心。
搜索了下特斯拉最新的算法招聘JD,基本上能看出特斯拉對於算法的大致思路。
首先,視覺和語言類的大模型肯定會是自動駕駛和機器人必不可少的,畢竟在人類的世界,人類需要的元素,他們都少不了。語言和文字是人類構建的,所以人類GPT等算法最快將其掌握和破解,那麼如何將2D感知轉化成3D是重點。

特斯拉JD基本上指出了當前先進的通過視覺2D轉3D空間計算技術:NeRF

擴散模型Diffusion Models
高斯 Splatting Gaussian Splatting、從 3D 空間中的點雲中投影點(又稱「濺射」),將來自各種濺射的紋理組合起來,獲得逼真的視覺效果。
多視圖立體Multiview Stereo

TSDF 融合TSDF Fusion、這個我們之前文章《揭祕特斯拉FSD V14 「車位到車位」背後的核心算法:高保真3D空間Occ佔用探測》分享過。
運動結構Structure from Motion

SLAM
MESH
其實這些2D圖形轉3D的算法都已經存在和應用,自動駕駛和機器人行業只是將他們更好的整合到大模型算法中,使其能夠端到端訓練,能夠實時,高精度低成本的在邊緣部署。
不好意思,本文可能沒有什麼邪門傳的神乎其神人工智能,只有背後冰冷的數字算法,不過這就是科學的真相,理解好他們能更好的理解真相。
關注Vehicle,後續有ICCV相關資料將進行分析和科普。>>>>