英伟达拿出推理版VLA:Alpamayo-R1让自动驾驶AI更会动脑子
创始人
2025-12-02 08:37:39

(来源:机器之心)

一、自动驾驶的瓶颈:「看」得见,却「想」不明白

当今自动驾驶模型越来越强大,摄像头、雷达、Transformer 网络一齐上阵,似乎什么都「看得见」。但真正的挑战在于:模型能否像人一样「想明白」为什么要这么开?

传统的端到端(E2E)系统虽然能从感知到控制一气呵成,却常在「长尾场景」翻车 —— 比如:

  • 迎面来车违规左转;

  • 行人突然闯入;

  • 临时施工、交通标志被遮挡。

这些「极少数但容易发生事故」的场景正是当前系统的盲点。

二、Alpamayo-R1:给模型装上「推理链条」

NVIDIA Research 推出的 Alpamayo-R1(AR1),是一种全新的带有推理能力的视觉 - 语言 - 行动模型(Reasoning VLA),让车辆不只是「执行指令」,而是能在决策前「推理出因果关系」。

图 1:Alpamayo-R1 模型架构(示意)

AR1 的核心创新有三个方面:👇

1. Chain of Causation(因果链)数据集

AR1 引入了一套全新的数据标注体系:每一段驾驶数据不仅有「做了什么」,还有 「为什么这样做」。例如:「减速并左变道,是因为前方有助动车等红灯,且左侧车道空闲。

图 2:因果链(CoC)标注示例

2. Diffusion-based Trajectory Decoder(扩散式轨迹解码器)

AR1 引入了一种基于扩散模型的轨迹解码器,它能在实时约束下生成连续、动态可行的驾驶轨迹。该模块结合语言推理输出与物理约束,实现从推理到控制的无缝衔接。

3. Multi-Stage Training(多阶段训练策略)

AR1 是基于 NVIDIA 的 Cosmos Reason 模型,这是一种专为物理 AI(Physical AI)设计的推理视觉语言模型;并采用多阶段训练策略:首先在大规模驾驶数据上做模态注入,学习从视觉到动作的基本映射;第二阶段在 CoC 因果链数据上做监督微调,显式教会模型「先想清楚再开」;最后通过强化学习(RL)进一步优化推理质量、推理 - 行动一致性和轨迹安全性。

这种分阶段、分目标的训练流程,使得模型在开放场景、长尾危险场景中都表现的更加稳健。

三、性能飞跃:更稳、更准、更懂你

在实验中,AR1 为以下性能带来了显著提升:

  • 🚀 规划精度提升 12%

  • 🌲 越界率降低 35%

  • 🚗 近碰率降低 25%

  • 🤖 推理 - 行动一致性提升 37%

  • ⚡ 实时性能:99 ms 端到端延迟

更重要的是,这些提升主要体现在以往最容易出错的「长尾场景」中 —— 也就是说,它更接近「真正会判断的司机」。

四、Vision Encoding:高效多相机时序感知

AR1 的输入由多相机、多时序观测帧组成,同时可以选配高层语言输入(如导航指令或驾驶目标)。所有输入(包括历史自车运动)会被统一编码成多模态 token 序列,按时序和传感器顺序排列,再送入主干模型 Cosmos-Reason 进行推理与预测。

在这一过程中:

  • 每个相机视角先经过轻量级 CNN 与时间注意力模块做特征压缩与时序建模;

  • 多相机特征随后融合为 BEV(鸟瞰图)表征;

  • 所有模态(图像、导航文本、自车状态)被 token 化后统一输入 Transformer;

  • 模型的输出包含三类 token:推理链(reasoning traces)、中层动作(meta-actions)与未来轨迹预测(trajectories)。

这种统一编码方式让模型具备了多模态语义理解与运动状态感知的「一体化」能力。

五、数据的灵魂:结构化标注的革命

AR1 的 CoC 数据集采用「人机协同标注」机制:

  • 人工部分:标注关键帧、核心因果因素(如红灯、行人、障碍物),并撰写推理链。

  • 自动部分:通过 GPT-5 等大模型自动生成初版推理,再由人类审查。

  • 质量审核:每条样本通过因果覆盖、因果正确性、近因优先等四项规则严格把关。

最终形成数十万条高质量推理 - 行动样本,使 VLA 模型能真正「理解因果,而非记忆现象」。

图 3:CoC 数据标注流程示意图

六、Multi-Stage Training:从常识推理到行为控制

Alpamayo-R1 的训练分为三个阶段,旨在让模型从「看懂」到「会想」再到「能开」。

图 4: AR1 训练流程示意图

1. 监督微调(Supervised Fine-Tuning, SFT)

基于 Cosmos-Reason 的预训练权重进行微调。该主干模型原本在 370 万条 VQA 数据上后训练(post-training),其中包括 2.47 万条专为驾驶设计的视频样本,带有场景描述、驾驶难度和推理轨迹标注,帮助模型建立「物理常识」和 「因果直觉」。

此外还构建了额外的 10 万条驾驶样本,标注关键目标、交通信号、因果行为解释等信息,用于领域自适应微调。

2. 因果链监督阶段(CoC Supervision)

引入 CoC 因果链数据集,显式监督模型的推理输出,使其能回答「为什么要减速」、「为什么左转」。这一阶段通过人工 + 教师模型(如 GPT-5)生成高质量推理样本,使模型在策略学习前先获得强大的语言 - 推理能力。

3. 强化学习后训练优化(Reinforcement Learning based Post-Training)。

在最终阶段,英伟达通过强化学习对模型进行策略微调,以进一步提升其在推理精准性、推理–行动一致性、轨迹平滑性以及闭环控制稳定性等方面的表现。

Alpamayo-R1 引入了多维度奖励机制:包括由专家级推理模型提供的反馈信号,用于评估并引导模型生成更具因果逻辑的推理;「推理–行动一致性(Reasoning–Action Consistency)」奖励,用于鼓励模型依据自身推理合理执行动作;以及底层安全奖励,用以促进模型生成更加安全、平滑且可执行的运动轨迹。

七、未来展望:迈向可解释的 L4 自动驾驶

AR1 的设计理念可以看作是自动驾驶从「黑箱」到「白箱」的转折点。

它不再只是一个会开车的 AI,而是一个能告诉你「为什么这样开」的驾驶员。

✨ 小结:让自动驾驶「有理可讲」

Alpamayo-R1 的意义不止在性能提升,更在于:它让 AI 的「推理链」与物理世界的「行动链」形成真正的闭环。

当车辆能解释自己的每一个决策时,才能确保更加安全,信任与普及才会得以实现。

一句话总结:AR1 = 会开车 + 会思考 + 会解释的自动驾驶模型

详细内容请查看:https://research.nvidia.com/publication/2025-10_alpamayo-r1

相关内容

热门资讯

南方泵业12月1日获融资买入9... 12月1日,南方泵业涨0.23%,成交额8173.00万元。两融数据显示,当日南方泵业获融资买入额9...
山东矿机12月1日获融资买入1... 12月1日,山东矿机涨1.09%,成交额9612.01万元。两融数据显示,当日山东矿机获融资买入额1...
华夏创业板新能源ETF(159... 数据显示,12月1日,华夏创业板新能源ETF(159368)遭净赎回878.98万元,位居当日股票E...
飞龙股份12月1日获融资买入1... 12月1日,飞龙股份涨1.80%,成交额2.84亿元。两融数据显示,当日飞龙股份获融资买入额1798...
风范股份12月1日获融资买入7... 12月1日,风范股份涨0.60%,成交额7521.65万元。两融数据显示,当日风范股份获融资买入额7...