理想汽车发布下一代自动驾驶基础模型 MindVLA-o1:看得更准、想得更深

IT之家
Mar 17

IT之家 3 月 17 日消息,今日,理想汽车基座模型负责人詹锟出席 NVIDIA GTC 2026,发表主题演讲《MindVLA-o1:开启全能范式 —— 下一代统一视觉-语言-动作自动驾驶大模型探索》,发布了理想汽车的下一代自动驾驶基础模型 MindVLA-o1。

据介绍,MindVLA-o1 通过五大技术创新 ——3D 空间理解、多模态思考、统一行为生成、闭环强化学习和软硬件协同设计,构建面向物理世界智能的自动驾驶基础模型。

据IT之家了解,该模型的核心突破可以概括为以下五个维度:

看得更准(3D 空间理解):以前的系统更多是在处理平面图像,而 MindVLA-o1 结合了摄像头和激光雷达,通过 3D 编码器让车能够像人类一样感知物体的深浅、距离和运动状态,真正理解三维物理空间。

想得更深(多模态思考):它是首个能“脑补”未来的模型。通过隐世界模型,它不仅看现在,还能在隐形空间里提前“预演”未来几秒可能发生的场景,从而做出更有预见性的决策。

行得更稳(统一行为生成):系统采用 VLA-MoE 架构,专门配备了“动作专家”。它能同时生成所有行驶轨迹点,并通过类似“去噪”的优化过程,确保车开得既丝滑又符合物理规律。

进化更快(闭环强化学习):理想构建了一个强大的世界模拟器。模型不仅在马路上学,还能在虚拟世界里进行大规模、高效率的自我练习和策略优化,大大降低了训练成本。

部署更高效(软硬件协同):通过研究模型精度与硬件延迟的平衡,理想将架构设计的时间从几个月缩短到几天,让复杂的大模型能更流畅地跑在车端芯片上。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10