物理AI的ChatGPT时刻!英伟达“内驱”无人驾驶汽车将至,发布首个链式思维推理VLA模型

华尔街见闻
Jan 06

英伟达宣布开源其首个推理 VLA (视觉-语言-动作) 模型Alpamayo 1。该模型旨在打造能在意外情况下"思考"解决方案的车辆,采用 100 亿参数架构,使用视频输入生成轨迹和推理过程。黄仁勋称,首款搭载英伟达技术的汽车将第一季度在美上路。英伟达还发布了多个开源模型、数据和工具,如用于代理AI的英伟达Nemotron家族、用于物理AI的Cosmos平台、用于机器人的英伟达Isaac GR00T以及用于生物医学的英伟达Clara。

英伟达在无人驾驶领域迈出关键一步,宣布开源其首个推理 VLA (视觉-语言-动作) 模型Alpamayo 1,这一举措旨在加速安全的自动驾驶技术开发。该模型通过类人思维方式处理复杂驾驶场景,为解决自动驾驶长尾问题提供新路径。

美东时间1月5日周一,英伟达CEO黄仁勋在拉斯维加斯举行的CES展会上发布了Alpamayo平台,使汽车能够在真实世界中进行"推理"。黄仁勋表示,首款搭载英伟达技术的汽车将于第一季度在美国上路。

英伟达免费开放Alpamayo模型,允许潜在用户自行对模型进行重新训练。该模型旨在打造能在意外情况下"思考"解决方案的车辆,例如交通信号灯故障等场景。车载计算机将分析来自摄像头和其他传感器的输入,将其分解为步骤并提出解决方案。

这一开源举措获得了行业广泛支持。包括捷豹路虎(JLR)、Lucid、Uber以及加州大学伯克利分校DeepDrive深度学习自动驾驶产业联盟(BDD)在内,多家移动出行领军企业和研究机构表示,将利用Alpamayo开发基于推理的自动驾驶技术栈,推动L4级自动驾驶部署。

首个开源推理VLA模型发布

英伟达此次发布的Alpamayo家族整合了三大基础支柱:开源模型、仿真框架和数据集,构建了一个完整的开放生态系统供任何汽车开发者或研究团队使用。

Alpamayo 1是业界首个为自动驾驶研究社区设计的思维链推理VLA模型,现已在Hugging Face平台发布。该模型采用100亿参数架构,使用视频输入生成轨迹及推理轨迹,展示每个决策背后的逻辑。开发者可以将Alpamayo 1改编为更小的运行时模型用于车辆开发,或将其作为自动驾驶开发工具的基础,例如基于推理的评估器和自动标注系统。

黄仁勋表示:

“物理AI的ChatGPT时刻已到来——机器开始理解、推理并在真实世界中行动。无人出租车是首批受益者。Alpamayo为自动驾驶汽车带来推理能力,使其能够思考罕见场景,在复杂环境中安全驾驶,并解释其驾驶决策——这是安全、可扩展自动驾驶的基础。”

英伟达强调,Alpamayo模型并非直接在车内运行,而是作为大规模教师模型,供开发者微调并提取到其完整自动驾驶技术栈的骨干中。未来该家族的模型将具有更大的参数规模、更详细的推理能力、更多的输入输出灵活性以及商业使用选项。

推理VLA技术原理解析

推理VLA是一种统一的AI模型,将视觉感知、语言理解和动作生成与逐步推理集成在一起。

这类模型整合了明确的AI推理功能,在传统视觉-语言-动作模型的基础上构建。AI推理是AI逐步解决复杂问题并生成类似于人类思维过程推理痕迹的能力。这些系统对一系列互联网规模的任务进行预训练,包括语言生成和视觉连接,以发展通用知识和感知基础。

与将视觉输入直接映射到动作的标准VLA模型不同,推理VLA模型将复杂的任务分解成可管理的子问题,并以可解释的形式阐明其推理过程。这使模型能够更准确地解决问题或执行任务,还能对模型正在进行的操作提供一定程度的反思。

构建推理VLA模型需要三种基本AI功能:视觉感知、语言理解以及动作和决策制定。视觉感知处理来自摄像头、毫米波雷达或激光雷达等感知传感器的实时数据;语言理解通过自然语言处理解释命令、上下文提示和对话输入;动作和决策制定则使用融合的感官和语言信息来计划、选择和安全地执行任务,同时生成可解释的推理痕迹。

在自动驾驶场景中,推理VLA可以对交通状况进行逐步推理。例如,接近一个十字路口时,系统可能会进行如此推理:"我看到一个停止标志,左边有车辆驶来,还有行人正在过马路。我应该减速,完全停下来,等待行人通过人行横道,安全时再继续前进。"

完整开放生态系统支持开发

除Alpamayo 1模型外,英伟达还发布了配套的仿真工具和数据集,构建完整的开发生态系统。

AlpaSim是一个完全开源的端到端仿真框架,用于高保真自动驾驶开发,现已在GitHub平台发布。它提供真实的传感器建模、可配置的交通动态和可扩展的闭环测试环境,实现快速验证和策略优化。

英伟达还提供了面向自动驾驶最多样化的大规模开放数据集,包含超过1700小时的驾驶数据,涵盖最广泛的地理位置和条件范围,覆盖罕见且复杂的真实世界边缘案例,这对于推进推理架构至关重要。这些数据集可在Hugging Face平台获取。

这些工具共同为基于推理的自动驾驶技术栈创建了一个自我强化的开发循环。开发者可以利用这些资源在专有车队数据上微调模型,将其集成到基于英伟达DRIVE AGX Thor加速计算构建的英伟达DRIVE Hyperion架构中,并在商业部署前通过仿真验证性能。

业界领军企业表达支持

据英伟达介绍,多家移动出行领域的领军企业对Alpamayo表示了浓厚兴趣。

Lucid Motors高级驾驶辅助系统和自动驾驶副总裁Kai Stepper表示:"向物理AI的转变凸显了AI系统对真实世界行为进行推理能力的日益增长的需求,而不仅仅是处理数据。先进的仿真环境、丰富的数据集和推理模型是这一演进的重要元素。"

捷豹路虎产品工程执行总监Thomas Müller表示:"开放、透明的AI开发对于负责任地推进自动移动出行至关重要。通过开源Alpamayo等模型,英伟达正在帮助加速整个自动驾驶生态系统的创新,为开发者和研究人员提供新工具,以安全地应对复杂的真实世界场景。"

Uber全球自动移动出行和配送负责人Sarfraz Maredia表示:"处理长尾和不可预测的驾驶场景是自动驾驶的决定性挑战之一。Alpamayo为行业创造了令人兴奋的新机遇,可以加速物理AI、提高透明度并增加安全的L4级部署。"

加州大学伯克利分校DeepDrive联合主任Wei Zhan表示:"Alpamayo组合的推出代表着研究社区的一次重大飞跃。英伟达决定公开这一技术具有变革意义,因为其访问权限和能力将使我们能够以前所未有的规模进行训练——为我们提供了将自动驾驶推向主流所需的灵活性和资源。"

跨行业AI模型全面开放

本周一,英伟达还发布了推动各行业AI发展的多个新开源模型、数据和工具。

这些模型涵盖用于代理AI的英伟达Nemotron家族、用于物理AI的英伟达Cosmos平台、用于机器人的英伟达Isaac GR00T以及用于生物医学的英伟达Clara。英伟达还提供了开源训练框架和全球最大的开放多模态数据集合之一,包括10万亿语言训练标记、50万个机器人轨迹、45.5万个蛋白质结构和100TB的车辆传感器数据。

英伟达代理式AI基础模型Nemotron发布了语音、多模态检索增强生成(RAG)和安全相关的新模型。Nemotron Speech包含业界领先的开源模型,为实时字幕和语音AI应用提供实时、低延迟语音识别。Nemotron RAG包含新的嵌入和重排序视觉语言模型,提供高度准确的多语言和多模态数据洞察。

在物理AI和机器人领域,英伟达发布了Cosmos开放世界基础模型,为加速物理AI开发和验证带来类人推理和世界生成能力。Isaac GR00T N1.6是一个开放推理VLA模型,专为人形机器人打造,实现全身控制,并使用英伟达Cosmos Reason实现更好的推理和上下文理解。

英伟达称,博世(Bosch)、CodeRabbit、CrowdStrike、Cohesity、Fortinet、Franka Robotics、Humanoid、Palantir、Salesforce、ServiceNow、日立和Uber等科技业的领头羊正在采用并基于英伟达的开源模型技术进行开发。

英伟达的开源模型、数据和框架现已在GitHub和Hugging Face平台发布,并可通过一系列云、推理和AI基础设施平台以及build.nvidia.com获取。这些模型中的许多还以英伟达NIM微服务的形式提供,可在从边缘到云端的任何英伟达加速基础设施上进行安全、可扩展的部署。

Disclaimer: Investing carries risk. This is not financial advice. The above content should not be regarded as an offer, recommendation, or solicitation on acquiring or disposing of any financial products, any associated discussions, comments, or posts by author or other users should not be considered as such either. It is solely for general information purpose only, which does not consider your own investment objectives, financial situations or needs. TTM assumes no responsibility or warranty for the accuracy and completeness of the information, investors should do their own research and may seek professional advice before investing.

Most Discussed

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10