稱讚特斯拉基本功紮實,李想再談AI:人工智能時代,基本功不可跳躍

時代財經
05-08

  距離理想汽車CEO李想上一次談AI已經過去了130多天,在5月7日晚的《理想AI Talk第二季》中,李想分享了對於人工智能的最新思考,VLA司機大模型的作用、訓練方法和挑戰。

  在這130多天時間裏,外部世界發生了巨大的變化。DeepSeek橫空出世,在全球掀起AI熱潮,致力於要做AI公司的理想汽車置身其中,“擁抱DeepSeek的這個過程比我們想象得要快。”李想稱。據介紹,得益於DeepSeek的開源,理想汽車在VLA司機大模型的語言能力研發上提速顯著,節省了近9個月的時間和數億元成本。

  也正因如此,理想汽車今年3月27日宣佈把自研的整車操作系統理想星環OS開源。“我自己內心,包括謝炎(理想汽車CTO)的內心就是DeepSeek給我們帶來那麼大的幫助,我們應該給社會貢獻點什麼。不讓行業那麼卷。說白了純粹是感謝DeepSeek。”

  而在這130多天的時間裏,李想本人依然是輿論場中頗具話題性的代表人物。就在《理想AI Talk第二季》上線的同一天,“李想年薪6.39億元”的話題衝上微博熱搜。對此,理想汽車方面回應時代財經稱,事實上,李想2024年全部實際薪酬爲266萬元。目前披露的6.39億,屬於公司按照美股上市公司(美國會計準則)對於期權的特殊記會計費用方式,不是李想的實際薪資收益。

  李想也談到近期的“智駕”爭議,今天的輔助駕駛走到了一個新的十字路口上,對此,他回應稱:“經過多年,從規則算法到端到端+VLM(視覺語言),再到現在真正邁入VLA(視覺語言行動模型)的階段,現在比較像‘黎明前的黑暗’。”

  “AI成爲生產工具才能真正爆發”

  爲什麼人類一定需要輔助駕駛?爲什麼科技不能就此止步?

  拋出這兩個問題後,李想的回答是:只要人類會僱傭司機。我覺得人工智能技術其實就是把類似這樣的一些功能和角色去變成真正的生產力、生產工具,然後去進行替代。

  李想表示:“判斷Agent(智能體)是否真正智能,關鍵在於它是否成爲生產工具。只有當人工智能變成生產工具,纔是其真正爆發的時刻。”

  而VLA能夠讓AI真正成爲司機,成爲交通領域的專業生產工具。“對於理想汽車而言,VLA是一個司機大模型,像人類的司機一樣去工作的一個模型。”李想說。

  創業做AI是“造人”,而理想汽車做的就是在“造司機”。

  VLA 最早由DeepMind於2023年提出並應用在機器人領域。根據財通證券研報,VLA不僅融合了VLM(視覺語言模型)的感知能力和端到端模型(E2E)的決策能力,更引入了“思維鏈”技術,實現了全局上下文理解與類人推理能力。

  2024年,理想汽車正式推送了端到端+VLM(視覺語言模型)輔助駕駛。不過,端到端模型在處理複雜問題時存在侷限,雖可藉助VLM視覺語言模型輔助,但VLM使用開源模型,使其在交通領域的能力有限。同時端到端模型也難以與人類溝通。

  2024年,理想汽車開始了VLA研究。VLA的訓練分爲預訓練、後訓練和強化訓練三個環節,類似於人類學習駕駛技能的過程。

  在理想汽車進行VLA研究的這一時期,橫空出世的DeepSeek全球爆火。根據公開資料,2024年12月,視覺模型DeepSeek-VL2、模型DeepSeek-V3首個版本相繼發佈並同步開源。2025年1月15日,DeepSeek官方App正式上線。

  彼時,李想問團隊:“DeepSeek開源開得如此徹底,我們是否應該基於它的開源,去做我們的VLA的L(language 語言)的部分,我們是否應該站在巨人的肩膀上去做?”理想汽車CTO謝炎說:“肯定應該這麼做。”理想汽車基座模型負責人陳偉則更爲堅決,陳偉認爲,理想應該以這個爲基礎,加速VLA,加速端到端的多模態的進展。

  “擁抱DeepSeek的這個過程比我們想象得要快。”李想稱,我覺得DeepSeek的出現對我們加速做VLA是巨大的幫助。過去我們計劃要到今年年底才能做出一個像樣的、能夠滿足我們需求的語言模型,但DeepSeek一開源,我們就加速了9個月的時間,所以給我們帶來了巨大的收益和幫助。

  據悉,VLA司機大模型以“司機Agent(智能體)”的產品形態呈現,用戶可通過自然語言與司機Agent溝通,跟人類司機怎麼說,就跟司機Agent怎麼說。簡單通用的短指令由端側的VLA直接處理,複雜指令則先由雲端的VL基座模型解析,再交由VLA處理。

  “VLA是現階段效率最高的架構”

  不僅是理想汽車,元戎啓行、Waymo、Wayve等企業也在VLA領域進行佈局。

  高盛最新自動駕駛報告顯示,到2030年,VLA模型主導的端到端方案可能佔據L4級市場60%份額。

  財通證券表示:“現階段,智駕市場競爭焦點已從單純的功能實現轉向了更深層次的技術範式競爭,強調技術架構的先進性和可持續性。”

  當前智能輔助駕駛行業的技術路徑快速迭代。從依賴規則算法和高精地圖的輔助駕駛到端到端+VLM輔助駕駛,再到VLA。在李想看來,未來是否有效率更高的架構出現,需要打個問號。“我認爲大概率還是會有的。但VLA是現階段效率最高的架構。”

  與此同時,行業也存有共識,VLA 模型的上車難度不小,對技術和車端的芯片算力都有高強度要求。

  “其他車企也可以做,但其有沒有建立整個基座模型的能力,以及預訓練、後訓練、強化訓練的能力,(帶來的結果)是不一樣的。很多時候一家公司如果模型能力不強,根本不知道怎麼去做對齊。”李想稱。“包括今天很多企業做端到端都很喫力,因爲在規則算法時候都沒做好。”

  在他看來,大型企業的基本功和能力永遠無法被逾越。

  李想以特斯拉爲例,“從實測上看,目前特斯拉在中國市場的輔助駕駛版本大概在用12.5之前的模型,其採用的是半規則算法能力,這並不是特斯拉真實能力,距其真實能力還有巨大差距,特斯拉13.0以後的能力還是非常強的,能看到特斯拉基本功是非常紮實的。”

  李想稱:“我覺得這個是我們真正要去學的。尤其在今天這種內卷、外部不確定的環境下,更是每個企業紮紮實實練基本功的最好的時候。而且到了人工智能時代,基本功就更是不可跳躍的。如果很多企業做了很多創新,但是沒有基本功,不紮實,所以很多創新就會曇花一現過去了。”

  伴隨技術架構的不停進階與其真正落地應用的不斷深入,可以看到,今天行業的輔助駕駛走到全新的十字路口。

  李想認爲,“經過多年,從規則算法到端到端+VLM,再到現在真正邁入VLA的階段,現在比較像‘黎明前的黑暗’。我覺得黎明馬上就要來了。但是會先經歷一個黑暗的過程,之所以有黑暗是因爲要迎來黎明。”李想說。“我覺得今天這個階段。正因爲輔助駕駛行業遇到了問題。我最喜歡、最開心的方式,就是去解決行業解決不了的問題,我覺得這是我們自己堅決相信的。”

(文章來源:時代財經)

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10