對話曹旭東:把智駕帶進物理AI時代

華爾街見聞
04/27

作者 | 柴旭晨

編輯 | 周智宇

2026年的北京車展上,「物理AI」成了被重複最多的詞之一。

過去兩年,全球科技行業的主角是數字AI:大模型會寫作、會編程、P圖,幾乎重做了一遍互聯網入口。但當數字世界的數據紅利被快速消化之後,產業開始把目光投向更大的現實世界——道路、工廠、倉庫、家庭、城市交通系統。

底層技術從數字空間遷移到物理空間,已經成為新的產業共識。問題在於,誰能成為物理世界的OpenAI?

此次北京車展上,Momenta給出的答案是:自動駕駛就是物理AI的序章,而Momenta想成為其中的平台型玩家。

跨界

2026年4月25日,Momenta發布R7強化學習世界模型,並將其定義為「物理AI序章」。

Momenta CEO曹旭東在發布會後對華爾街見聞表示,「自動駕駛進入到了這個階段。」所謂「這個階段」,是自動駕駛已經成為目前少數能夠同時打通「數據閉環」與「商業閉環」的物理AI賽道。這是理解「為什麼自動駕駛是物理AI序章」的關鍵。

數字AI過去之所以爆發,是因為具備三個條件:海量低成本數據、快速低成本驗證、成熟商業入口。互聯網提供文本、圖片、視頻數據,用戶點擊一次、追問一次,模型就獲得一次反饋,產品再通過訂閱、廣告、API變現。

而大多數物理AI領域並不具備這些條件。

機器人缺數據、缺場景、缺反饋,更缺穩定現金流。一個機械臂想學會抓杯子,要真實硬件、真實動作、真實損耗;一次試錯的成本,遠高於數字世界的一次模型推理。

曹旭東向華爾街見聞直言,OpenAI早期既做機器人,也做數字AI,但階段性放棄機器人去做GPT,一個重要原因就是「機器的數據太難獲得了。」

在曹旭東看來,GPT需要的互聯網數據,本身已經具備超大規模 。但自動駕駛既屬於物理世界,又天然擁有持續數據源。

每一台量產車都是移動傳感器,每一次通勤、變道、避障、擁堵、泊車,都是模型訓練樣本。只要車輛規模足夠大,真實世界的數據就會源源不斷進入系統。

與此同時,它還有清晰的商業入口。

用戶願意為輔助駕駛買單,車企願意為智能化競爭力買單,供應商可以通過定點、授權、裝車獲得收入。技術提升不僅意味着論文成績更高,也意味着銷量更高、ASP更高、客戶更多。這就是曹旭東所說的正反饋機制。

「先有了數據閉環,然後纔有足夠好的體驗,這個足夠好的體驗一旦達到了接近人類的水平或者超過人類的水平的時候,就能夠實現爆發式的商業化。而這個爆發式的商業化之後,又會帶來數據爆發式的增長。」 曹旭東說道。

換句話說,自動駕駛已經具備了物理AI最稀缺的飛輪結構。而Momenta正在這個飛輪裏佔據有利位置。

公司披露,已交付超過70款量產車型,累計定點車型數超過200款,搭載其系統的量產車輛規模已超過80萬台。本屆北京車展,超過20個品牌、60餘款車型搭載Momenta方案,包括奔馳、奧迪、寶馬新發布車型。

這80萬台車,不只是裝機量,更是80萬個持續採集現實世界複雜路況的數據節點。OpenAI的模型靠全球用戶提問進化,Momenta的模型靠全球車輛上路進化。

但有了數據,還不夠。物理AI真正的難點,不是看見世界,而是理解世界。

破局

曹旭東向華爾街見聞解釋道,大語言模型依靠Next Token Prediction預測下一個詞,從而壓縮數字世界常識;而物理AI要依靠World Model Prediction,預測物理世界下一刻狀態和交互邏輯,讓模型理解物體運動規律、因果關係和潛在變化。「因此,世界模型與強化學習,共同構成物理AI的兩大核心支柱。」

這句話拆開看。數字AI的本質,是語言預測。物理AI的本質,是現實預測。前車急剎後,後車會不會追尾;雨天路面打滑時,制動距離會延長多少;路邊兒童突然衝出,車輛還有沒有避讓空間——這些都不是文字問題,而是動態世界問題。

Momenta給出的解法,是「世界模型+強化學習」。

Momenta研發SVP夏炎指出,Momenta的世界模型分三層:第一層是預訓練,用海量真實駕駛數據把物理規律、常識與因果關係壓縮進模型;第二層是仿真,讓模型在虛擬環境中推演行為變化後世界如何演變;第三層是在世界模型中進行強化學習,讓系統在接近真實的環境裏反覆試錯、自主優化。

這套結構,本質上是在複製OpenAI的成功路徑,但訓練對象從語言變成現實世界。

先學習常識,再進行後訓練,再通過強化學習獲得更優決策。曹旭東也提到,僅有常識並不代表是好司機。「大量的數據裏面有好的駕駛行為,但是更多的是不好的駕駛行為。」因此預訓練之後,還需要Post-Training,「把它的行為激發或者對齊到人類好的行為上去。」

這幾乎就是車圈版的RLHF。現實司機會急剎、猶豫、加塞、分心,模型若只是模仿人類平均水平,只能成為普通司機。只有通過強化學習篩選更優行為,纔可能成為超人類司機。

這也是為什麼曹旭東說,自動駕駛是物理AI的序章——它是第一個真正需要解決現實世界複雜博弈,又具備規模數據和商業回報的場景。

更重要的是,它還能繼續外溢。曹旭東向華爾街見聞透露,Momenta的L4業務不只做Robotaxi,也做Robovan,明年還會做Robotruck。他們相信,「一個自動駕駛的大模型能夠實現所有的自動駕駛垂直應用,並且做得更好。」

這意味着,Momenta並不想只做一家智駕Tier1,而是想做一個平台底座。

OpenAI把同一個模型延伸到搜索、辦公、客服、編程;Momenta則想把同一個駕駛大模型延伸到乘用車、出租車、物流車、卡車。不同場景共享底層能力,不同場景再反哺模型進化。

這是平台公司的典型路徑。

當然,物理AI的門票極貴。

曹旭東說,實現規模化L4,累計投入「至少是百億美金」;通用機器人可能需要「幾百億美金到千億美金」級別投入 ,所以他的結論非常現實:長期只靠孖展並不現實,「一定要有現金流業務來支持物理AI的研發。」

這恰恰是Momenta相較許多概念型AI公司的優勢——它已經擁有量產業務、客戶訂單和真實收入,再把現金流投入下一代模型訓練。

很多公司在談物理AI的未來,Momenta則是在用自動駕駛養出物理AI的未來。

十年前,曹旭東在硅谷看到Fairchild Drive,那條以仙童半導體命名的街道點燃了他的創業念頭。他說,希望與所有中國AI公司一起,書寫屬於東方的硅谷傳奇 。今天看,這個願景的現實版本或許是:OpenAI先讓機器學會說話,Momenta想讓機器學會在現實世界裏行動。

以下是與Momenta CEO曹旭東的對話實錄:

問:當下全球汽車產業流行反向合資,越來越多的海外車企看重了中國的科技巨頭,怎麼看待這種新的趨勢?

曹旭東:中國的技術現在正在從中國走向世界,整個發展速度非常快的,進入海外的市場,比如說進入歐洲的市場,進入其他的一些市場的時候,給當地用戶帶來更領先的產品價值,但是另外一方面也會帶來一些衝擊,比如說衝擊當地的公司、當地的就業或者是當地的稅收等等。

比較好的一個解決方案就是借鑑中國之前的模式,就是跟中國學習,來做反向合資,反向合資完之後,既讓當地享受到了中國高科技的技術和產品很好的用戶體驗,另外一方面就相當於是中國的技術賦能當地企業,對當地企業帶來更多的發展,帶來更好的工作機會、更多的就業、更好的稅收,是一個共贏的模式。

問:今年車展上有哪些海外的客戶和momenta交流?過程中有過哪些挑戰? 曹旭東:不光是今年,去年的時候我們就已經是全球品牌的共同選擇了,在全球最頂尖的品牌裏面,像德系的BBA、大衆,日系的豐田、本田、日產,美系的通用、福特,都已經是我們量產的合作客戶了。挑戰的話,最常見的挑戰,是中國的速度和國際OEM的標準,有時候是矛盾和衝突的,但是這個矛盾和衝突主要圍繞着客戶和用戶,以客戶和用戶的價值為中心去共創,很多時候都能找到更好的創新性的方法,帶來更好的結果。 問:數據飛輪在實際量產的過程中,最大的瓶頸是什麼? 曹旭東:數據這件事情,它不是單單的數據本身,你可以認為數據它就是礦石,而且是含礦量很低的鐵礦石,所以你要把數據真的用起來的話,首先你要把這個貧礦變成富礦。我舉一個例子,在高速上三隻小狗排隊橫穿高速,這樣的場景真的是萬中無一、萬里挑一,你怎麼把這個數據給挑出來?它的難度本身就是一個大海撈針的難度,這已經有很高的門檻了,你怎麼把貧礦變成富礦,再從富礦變成鋼鐵,鋼鐵又變成發動機,發動機最終又裝到車上,這纔是最終的價值,所以整個的數據飛輪的體系,它是一個體系能力,擁有原始數據,擁有海量的原始數據僅僅是一個價值源頭的10%,剩下的90%是來自於這個體系的價值,這是第一個問題。問:現在有一種說法,數據不難,但是用好數據比較難,Momenta怎麼去用好這些數據? 曹旭東:像我們的大模型,我們可能會分為預訓練的階段和Post-Training的階段,預訓練的階段,海量的來自於我們的量產車,我們現在已經80萬台車了。海量量產的數據,而且量產的數據包括了大量的長尾數據,通過World Model Pre-Training來預訓練這個模型。預訓練完這個模型之後有物理常識,但是有物理常識不代表它是一個好司機,因為大量的數據裏面有好的駕駛行為,但是更多的是不好的駕駛行為,所以就有一點像數字AI裏面大模型的訓練一樣,你通過海量的數據作為輸入,它具備了這個世界的常識,但是不代表着它有好的行為,所以你還是需要Post-Training,通過Post-Training,把它的行為激發或者對齊到人類好的行為上去,大概會分為這兩個環節。 問:今年北京車展上很多的車企都在強調自己的輔助駕駛技術路線的不同,Momenta的世界模型最大的特點是什麼? 曹旭東:更重要的不是單點算法,是架構能力,架構能力已經比單點算法能力更強了,因為一旦涉及到架構一定涉及到取捨,不是所有的創新都能放到同一個架構裏面,涉及到架構的話就涉及到取捨,好的架構能夠實現更好的積累和更好的合力,架構之上又包含了體系,這個體系包含了數據迭代的體系,包括了訓練的體系,也包括了整個迭代的體系和驗證的體系,體系之上更多的是組織和文化,就有一點像中國有一句古話,淮南為橘、淮北為枳。我覺得根本上的企業之間的差距來自於組織和文化和對應的體系的建設,這是有更大的差距的。而具體的單點的算法的話,這個創新當然很重要了,每一代的算法架構的創新,實際上會帶來大的進步,但是坦率來說,在中國的環境下,知識的流動和人才流動的速度其實是比較快的,僅僅是單點算法的話,並不存在特別大的壁壘或者差異性,有壁壘的是體系和組織的能力,所以你會發現,可能大家說的都是同樣的單點算法的方向,但是最終做出來的效果可能有一代或者兩代的差距,背後不是單點算法的差距,背後是體系和組織的差距。 問:Momenta成立10周年過程中的分享? 曹旭東:我覺得還是蠻幸運,一路走來,最重要的還是跟志同道合的人去幹真正喜歡的事情,真的會讓你的人生生機勃勃,創業過程中有很多的困難和挑戰,這些困難和挑戰,每一年都會覺得,這一年可能是最難的,過了這一年明年可能會更好,但實際上不是。如果你不享受發現問題、解決問題的過程,你不享受和你身邊志同道合的人共同去探索、共同去面臨困難和解決困難的過程,其實創業遇到的這些困難是很難堅持下去的。可能咬着牙堅持一年,咬着牙堅持兩年,咬着牙堅持三年,很難堅持十年,所以你一定要找到志同道合的人去幹喜歡的事情,去讓自己的人生生機勃勃。問:物理AI被英偉達的黃教主帶火之後,很多公司都說是物理AI的公司,Momenta在物理AI方面是一個什麼樣的位置? 曹旭東:首先我覺得物理AI是大勢所趨,首先大家都知道數字AI有很大的優勢,第一個就是數字AI的數據能夠快速的呈規模的獲得。大家都知道Open AI很早的時候,有機器人、有數字AI,但是後來在聚焦的過程中,階段性的放棄了機器人,選擇了去做GPT,很重要的原因是機器的數據太難獲得了。而GPT需要的是互聯網的數據,而互聯網的數據本來就已經是非常大規模了。數字AI在過去幾年實際上是突飛猛進,當然另一方面數字AI能夠更加低成本、短周期的檢驗,因為它能夠在數字世界上去互動,它的成本是更低的,周期是更短的,就比如說現在Agent要調用的話,只需要給一個接口。但是機器人要調用某一個工具的話,它要把機械手造出來,並且要抓取那個工具,並且來使用那個工具,那個難度和複雜度都會大非常多。但是,我們所在的世界,既有數字的部分,又有物理的部分,而物理的部分可能是更大的一部分,所以當數字世界整個的發展取得了非常大的進展之後,自然而然的很多的成功的經驗和方法就要進入物理世界,並且在物理世界中做創新,這也是為什麼我覺得現在是物理AI的序章剛開始。再回到我們公司,講到物理AI,其實物理AI我覺得最核心的,一個是數據閉環,一個是商業閉環,而且這兩者是互動的。我有一個經驗,這個經驗就是,任何一個人工智能的應用,一旦接近人類的水平,就會在很短的時間大幅超過人類的水平,這背後的邏輯是什麼呢?僅僅是我的一個觀察,就比如說你看Alpha Go也好,或者過去的人臉識別也好,前面經過了一個非常漫長的爬坡期去接近人,接近人可能花了十年、二十年很長的時間,但是超越人,或者大幅地超越人,有可能就發生在1、2年,2、3年的時間,一開始有這個觀察之後,我就在想背後的原因到底是什麼?後來就覺得最關鍵的還是數據閉環和商業閉環,而且這兩者之間是正反饋的,因為先有了數據閉環,然後纔有足夠好的體驗,這個足夠好的體驗一旦達到了接近人類的水平或者超過人類的水平的時候,就能夠實現爆發式的商業化。而這個爆發式的商業化之後,又會帶來數據爆發式的增長,而數據爆發式的增長又會帶來模型能力進一步的爆發式增長,最終能夠互相促進、互相激發,形成強烈的正反饋,而強烈的正反饋使得在很短的時間內就能夠實現十倍、百倍甚至千倍人類的經歷。我們的判斷就是自動駕駛進入到了這個階段,機器人還需要一段時間,這是第一點。所以自動駕駛是物理AI的序章,因為它最先實現了規模的數據閉環和規模的商業閉環。第二點就是,你看自動駕駛要實現規模化的L4,我的判斷累計的投入至少是百億美金,而且有可能還是創業公司的研發效率,如果你是大公司的話不只是百億美金,可能需要幾百億美金。但是機器人呢?通用的機器人它需要多少錢?我的判斷可能是幾百億美金到千億美金這個級別,有可能還是創業公司的研發效率。所以我的判斷就是,物理AI它是需要有門票的,而這個門票就是你需要有現金流的業務,雖然現在整個中國具身智能的資本市場是非常活躍的,但是長期來看,要靠投資,要靠孖展,追蹤做成通用的物理AI,或者物理世界的AGI是不現實的,而是一定要有現金流業務,而這個現金流業務可以是自動駕駛,也可以是物理AI某一個方向,雖然我現在沒有想到,其他的某一個方向能夠更早地實現規模化的數據閉環和商業閉環,或者其他來自於數字AI的現金流業務。無論如何一定要有一個現金流業務來支持物理AI的研發。

問:今年L4業務的進度如何?Momenta做Robotaxi的優勢? 曹旭東:我們公司的L4並不是只做Robotaxi,也會做Robovan,就是物流。因為我們十年的願景裏面,十年物流和出行的效率翻倍,實際上物流是放在更前面的,出行放到後面,明年我們也會做Robotruck,雖然我們今年不會做,但是我們明年會做。背後的底層邏輯是什麼呢?還是回到今天提到的Jeff Hawkins那一本書裏面,它講到了一個核心概念就是一個神經網、一個大模型能夠實現通用AI的能力,具體落地到自動駕駛這個領域的話,我們相信的是什麼呢?我們相信的是一個自動駕駛的大模型能夠實現所有的自動駕駛的垂直應用,並且做得更好。而且這件事情我們已經在Robotaxi、Robovan和乘用車上成功的驗證了,並且取得了很好的效果。這個帶來的價值是什麼呢?帶來的價值就是你在每一個vertical的研發成本會大幅度的降低。而每個應用場景,每個垂直應用場景的經驗和數據,又可以匯總和吸收到這個大模型裏面,使得每個垂直領域做得更好,這實際上就是一個平台優勢。這個就有一點像十年前或者十幾年前整個的互聯網行業,有垂直電商,也有平台電商,但是最終勝出的都是平台電商,垂直電商可能現在都不存在了,很重要的原因就是這個平台效應帶來的。我們的判斷在自動駕駛在大模型領域也存在着很強的這樣的平台效益,一個大模型能夠實現所有的垂直領域,並且能夠做得更好,這樣每個垂直領域的成本更低,效果會更好。問:2030年會不會迎來智駕的終局? 曹旭東:整個智駕或者整個自動駕駛它有非常強的規模效應和先發優勢,它的效應會比芯片行業更強,所以你回顧歷史可以看到,這個芯片行業,不管是PC時代的芯片,實際上全球就只有兩家,手機芯片的時代全球也就只有兩家,高通和MTK。自動駕駛,因為它是軟件,它的邊際成本是零,所以它的規模效應更強,它的規模效應除了成本上的規模效應,還有體驗上提升的規模效應。另一方面,面向主機廠有特別強的先發優勢,因為主機廠很多業務都是敲門敲三年,從你見到客戶到拿下合同是3年,如果是國際OEM的話,可能要敲門敲5-7年。比如說我們和奔馳的合作,2017年奔馳就投資了我們,而且當時特別巧,Ola Källenius(康林松)現在奔馳的董事長他覺得這個公司特別有活力選擇投資我們,但是我們跟奔馳的第一個量產項目上市是2025年的後半年,經歷了整整8年的時間,其實已經加速了。

我當時問了一個清華的師兄,那個清華的師兄告訴我說,你們跟奔馳合作量產至少需要十年。我們中間2017年到2020年是POC,2020年到2022年是Pre SOP,2022年到2024年是小批量的量產開發,到了2024年纔拿到了奔馳所有的電車和油車的業務,2025年底的時候才真正的量產。所以舉一個例子可以感受到,汽車行業敲門敲3年,國內的OEM敲門敲3年,海外的OEM敲門敲5-7年,到底是一個什麼樣的原因?因為這個行業有非常強的規模效應和非常強的先發優勢,所以我還是維持我原來的判斷,中國也就2-3家,全球也就3-4家,會非常快速地收斂。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10