物理AI的ChatGPT時刻!英偉達「內驅」無人駕駛汽車將至,發布首個鏈式思維推理VLA模型

華爾街見聞
01/06

英偉達宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1。該模型旨在打造能在意外情況下"思考"解決方案的車輛,採用 100 億參數架構,使用視頻輸入生成軌跡和推理過程。黃仁勳稱,首款搭載英偉達技術的汽車將第一季度在美上路。英偉達還發布了多個開源模型、數據和工具,如用於代理AI的英偉達Nemotron家族、用於物理AI的Cosmos平台、用於機器人的英偉達Isaac GR00T以及用於生物醫學的英偉達Clara。

英偉達在無人駕駛領域邁出關鍵一步,宣佈開源其首個推理 VLA (視覺-語言-動作) 模型Alpamayo 1,這一舉措旨在加速安全的自動駕駛技術開發。該模型通過類人思維方式處理複雜駕駛場景,為解決自動駕駛長尾問題提供新路徑。

美東時間1月5日周一,英偉達CEO黃仁勳在拉斯維加斯舉行的CES展會上發布了Alpamayo平台,使汽車能夠在真實世界中進行"推理"。黃仁勳表示,首款搭載英偉達技術的汽車將於第一季度在美國上路。

英偉達免費開放Alpamayo模型,允許潛在用戶自行對模型進行重新訓練。該模型旨在打造能在意外情況下"思考"解決方案的車輛,例如交通信號燈故障等場景。車載計算機將分析來自攝像頭和其他傳感器的輸入,將其分解為步驟並提出解決方案。

這一開源舉措獲得了行業廣泛支持。包括捷豹路虎(JLR)、Lucid、Uber以及加州大學伯克利分校DeepDrive深度學習自動駕駛產業聯盟(BDD)在內,多家移動出行領軍企業和研究機構表示,將利用Alpamayo開發基於推理的自動駕駛技術棧,推動L4級自動駕駛部署。

首個開源推理VLA模型發布

英偉達此次發布的Alpamayo家族整合了三大基礎支柱:開源模型、仿真框架和數據集,構建了一個完整的開放生態系統供任何汽車開發者或研究團隊使用。

Alpamayo 1是業界首個為自動駕駛研究社區設計的思維鏈推理VLA模型,現已在Hugging Face平台發布。該模型採用100億參數架構,使用視頻輸入生成軌跡及推理軌跡,展示每個決策背後的邏輯。開發者可以將Alpamayo 1改編為更小的運行時模型用於車輛開發,或將其作為自動駕駛開發工具的基礎,例如基於推理的評估器和自動標註系統。

黃仁勳表示:

「物理AI的ChatGPT時刻已到來——機器開始理解、推理並在真實世界中行動。無人出租車是首批受益者。Alpamayo為自動駕駛汽車帶來推理能力,使其能夠思考罕見場景,在複雜環境中安全駕駛,並解釋其駕駛決策——這是安全、可擴展自動駕駛的基礎。」

英偉達強調,Alpamayo模型並非直接在車內運行,而是作為大規模教師模型,供開發者微調並提取到其完整自動駕駛技術棧的骨幹中。未來該家族的模型將具有更大的參數規模、更詳細的推理能力、更多的輸入輸出靈活性以及商業使用選項。

推理VLA技術原理解析

推理VLA是一種統一的AI模型,將視覺感知、語言理解和動作生成與逐步推理集成在一起。

這類模型整合了明確的AI推理功能,在傳統視覺-語言-動作模型的基礎上構建。AI推理是AI逐步解決複雜問題並生成類似於人類思維過程推理痕跡的能力。這些系統對一系列互聯網規模的任務進行預訓練,包括語言生成和視覺連接,以發展通用知識和感知基礎。

與將視覺輸入直接映射到動作的標準VLA模型不同,推理VLA模型將複雜的任務分解成可管理的子問題,並以可解釋的形式闡明其推理過程。這使模型能夠更準確地解決問題或執行任務,還能對模型正在進行的操作提供一定程度的反思。

構建推理VLA模型需要三種基本AI功能:視覺感知、語言理解以及動作和決策制定。視覺感知處理來自攝像頭、毫米波雷達或激光雷達等感知傳感器的實時數據;語言理解通過自然語言處理解釋命令、上下文提示和對話輸入;動作和決策制定則使用融合的感官和語言信息來計劃、選擇和安全地執行任務,同時生成可解釋的推理痕跡。

在自動駕駛場景中,推理VLA可以對交通狀況進行逐步推理。例如,接近一個十字路口時,系統可能會進行如此推理:"我看到一個停止標誌,左邊有車輛駛來,還有行人正在過馬路。我應該減速,完全停下來,等待行人通過人行橫道,安全時再繼續前進。"

完整開放生態系統支持開發

除Alpamayo 1模型外,英偉達還發布了配套的仿真工具和數據集,構建完整的開發生態系統。

AlpaSim是一個完全開源的端到端仿真框架,用於高保真自動駕駛開發,現已在GitHub平台發布。它提供真實的傳感器建模、可配置的交通動態和可擴展的閉環測試環境,實現快速驗證和策略優化。

英偉達還提供了面向自動駕駛最多樣化的大規模開放數據集,包含超過1700小時的駕駛數據,涵蓋最廣泛的地理位置和條件範圍,覆蓋罕見且複雜的真實世界邊緣案例,這對於推進推理架構至關重要。這些數據集可在Hugging Face平台獲取。

這些工具共同為基於推理的自動駕駛技術棧創建了一個自我強化的開發循環。開發者可以利用這些資源在專有車隊數據上微調模型,將其集成到基於英偉達DRIVE AGX Thor加速計算構建的英偉達DRIVE Hyperion架構中,並在商業部署前通過仿真驗證性能。

業界領軍企業表達支持

據英偉達介紹,多家移動出行領域的領軍企業對Alpamayo表示了濃厚興趣。

Lucid Motors高級駕駛輔助系統和自動駕駛副總裁Kai Stepper表示:"向物理AI的轉變凸顯了AI系統對真實世界行為進行推理能力的日益增長的需求,而不僅僅是處理數據。先進的仿真環境、豐富的數據集和推理模型是這一演進的重要元素。"

捷豹路虎產品工程執行總監Thomas Müller表示:"開放、透明的AI開發對於負責任地推進自動移動出行至關重要。通過開源Alpamayo等模型,英偉達正在幫助加速整個自動駕駛生態系統的創新,為開發者和研究人員提供新工具,以安全地應對複雜的真實世界場景。"

Uber全球自動移動出行和配送負責人Sarfraz Maredia表示:"處理長尾和不可預測的駕駛場景是自動駕駛的決定性挑戰之一。Alpamayo為行業創造了令人興奮的新機遇,可以加速物理AI、提高透明度並增加安全的L4級部署。"

加州大學伯克利分校DeepDrive聯合主任Wei Zhan表示:"Alpamayo組合的推出代表着研究社區的一次重大飛躍。英偉達決定公開這一技術具有變革意義,因為其訪問權限和能力將使我們能夠以前所未有的規模進行訓練——為我們提供了將自動駕駛推向主流所需的靈活性和資源。"

跨行業AI模型全面開放

本周一,英偉達還發布了推動各行業AI發展的多個新開源模型、數據和工具。

這些模型涵蓋用於代理AI的英偉達Nemotron家族、用於物理AI的英偉達Cosmos平台、用於機器人的英偉達Isaac GR00T以及用於生物醫學的英偉達Clara。英偉達還提供了開源訓練框架和全球最大的開放多模態數據集合之一,包括10萬億語言訓練標記、50萬個機器人軌跡、45.5萬個蛋白質結構和100TB的車輛傳感器數據。

英偉達代理式AI基礎模型Nemotron發布了語音、多模態檢索增強生成(RAG)和安全相關的新模型。Nemotron Speech包含業界領先的開源模型,為實時字幕和語音AI應用提供實時、低延遲語音識別。Nemotron RAG包含新的嵌入和重排序視覺語言模型,提供高度準確的多語言和多模態數據洞察。

在物理AI和機器人領域,英偉達發布了Cosmos開放世界基礎模型,為加速物理AI開發和驗證帶來類人推理和世界生成能力。Isaac GR00T N1.6是一個開放推理VLA模型,專為人形機器人打造,實現全身控制,並使用英偉達Cosmos Reason實現更好的推理和上下文理解。

英偉達稱,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技業的領頭羊正在採用並基於英偉達的開源模型技術進行開發。

英偉達的開源模型、數據和框架現已在GitHub和Hugging Face平台發布,並可通過一系列雲、推理和AI基礎設施平台以及build.nvidia.com獲取。這些模型中的許多還以英偉達NIM微服務的形式提供,可在從邊緣到雲端的任何英偉達加速基礎設施上進行安全、可擴展的部署。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10