解读理想VLA司机大模型：你不用付费的专属“代驾”_热点

解读理想VLA司机大模型：你不用付费的专属“代驾”

创始人

2025-05-10 10:21:21

作者｜王飞

邮箱｜ wf@pingwest.com

当ChatGPT在2022年横空出世，大模型技术掀起全球科技浪潮时，它开始改变了人工智能，慢慢又改变了语音对话，它进一步地试探进入到了交互领域，但很少有人能预见到，仅仅三年后，这股AI革命浪潮会深刻地改变汽车行业。

这场关乎智能汽车的革命浪潮以一种名为VLA的技术展开，也是以一种“Agent”的方式。

如果你关注智能辅助驾驶行业，应该了解这两年的热词“端到端”。

关于VLA，全名则为Vision-Language-Action，作为视觉-语言-行为三位一体的大模型架构，不少业内人士将VLA技术视为当下“端到端”方案的进阶版本——它将空间智能、语言智能和行为智能统一在一个模型里，由此它也拥有更高的场景推理能力与泛化能力。

简而言之，有VLA赋能的车不再只是一个驾驶工具，而是一个能与用户沟通、理解用户意图的智能体，通过语言模型和逻辑推理结合在一起之后，它能够成为一个听得懂、看得见、找得到，真正意义上的“司机Agent”。

自动驾驶技术正在经历的一场静悄悄但深刻的范式转移：从规则驱动向学习驱动，从分布式感知-决策-控制向端到端一体化架构，再到今天VLA的多模态融合统一建模。技术不再只是模块叠加的堆栈，也不再满足于“看得见”和“听得懂”，而是要求AI真正“行动起来”。“司机Agent”也拥有像人类司机一样理解环境、做出判断并立即执行的能力——成为像人一样在复杂世界中感知、理解、推理和行动的整体智能体。

放眼硅谷到北京，大洋彼岸的Waymo到理想，在这种多模态模型与机器人框架的技术趋势中，理想汽车成为了中国车企中走在最前面的一位践行者。

在2025理想AI Talk第二季活动上，理想汽车董事长兼CEO李想聚焦理想汽车最新推出的VLA司机大模型，不仅展示了“司机Agent”，更通过他本人对AI与人性的深度思考，勾勒出了智能汽车发展的新范式——

AI不应该是简单地将"汽车智能化"，而是真正实现"人工智能的汽车化"。

从NOA到VLA，理想为何要实现AI三段跳？

理想并非是突然转向VLA的。在此之前，也经历了充足的技术积累。

实话说，李想此前在第一季AI Talk上首次提出公司未来是一家领先的人工智能企业的时候，很多人可能并没有get到他在表达什么。

但如果你观摩了理想这连续的两季AI Talk活动，大概能看出这家公司是如何奔向“连接物理世界和数字世界，成为全球领先的人工智能企业”企业愿景的。

在第一季AI Talk活动中，理想展示出了技术路径其一：将公司汽车的销量挤到中国市场的领先地位，卖出年销量50万辆的汽车，在车上全部部署上端到端技术、Mind GPT，随后Mind GPT经过1.0/2.0，然后到3o多模态智能体的迭代后，理想决定推出理想同学App，让这个语音助手触及到更多的人。

第二季AI Talk活动中，理想回顾了在辅助驾驶领域的发展历程，我们也可以清晰地看到一条从量变到质变的技术演进路线：2023年年底，全场景NOA的推送标志着理想辅助驾驶从高速向城市场景的延展，为用户带来了更全面的智能辅助驾驶体验。而2024年7月15日推送的无图NOA功能，则首次实现了对先验信息依赖的突破，让车辆能够在没有高精度地图的情况下依然保持良好的驾驶表现。

2024年10月23日，理想汽车推送的端到端+VLM功能，真正意义上实现了One Model一体化端到端模型的大规模实践应用，并首次将大模型部署至车端量产芯片。这一突破性进展不仅体现了理想在AI算法上的深厚积累，更展示了其在车规级硬件与大模型融合方面的独特优势。

2025年3月18日，理想汽车正式发布下一代自动驾驶架构VLA。这在业内算是一次质的飞跃——当众多汽车品牌仍在为L2级辅助驾驶技术优化细节时，理想汽车却完成了一场田径运动中的"三级跳"，通过层层递进取得成绩，理想汽车的智能驾驶技术经历了从规则算法、到无图NOA、再到端到端+VLM，最终迈向VLA司机大模型的"三段"进化。

如果从结果来验证这其中的规律：从无图NOA到端到端+VLM，再到VLA司机大模型，每一步都至关重要，且每一阶段都是不可跨越。

比如NOA这一阶段的核心在于感知能力和环境适应性的提升，是连接规则算法和端到端模型的关键桥梁。

第二阶段端到端+VLM功能，标志着从规则驱动向数据驱动的根本转变。

前两个阶段的技术沉淀，解决了两个问题：一是前期没有足够的数据支撑模型训练；二是缺乏规则约束导致的安全风险。

汽车驾驶不同于简单的互联网应用，它直接关系到用户的生命安全，需要在实际道路环境中反复验证和迭代。

如果没有通过前期收集的大量实际道路数据和规则算法的约束，成功训练出了稳定可靠的端到端模型，并将其与VLM视觉语言模型结合，就无法初步实现了系统对环境的"理解"，只是简单的"识别"。

理想的VLA从“辅助”到“智能体”的跃迁，建立在前三个阶段所有技术积累的基础之上。如果没有规则算法打下的基础，系统就无法理解基本驾驶规则；如果没有无图NOA阶段锻造的环境适应能力，系统就无法应对未知场景；如果没有端到端+VLM阶段的模型整合经验，VLA的三位一体架构就无从谈起。

从一定程度上来说，VLA技术的成功离不开中国本土AI市场的崛起。

另外，也正如DeepSeek在大模型领域的发展路径所示，从构建集群能力到基建、链路的优化，通过这些前期的积累，才能实现低成本和高效率的AI应用。DeepSeek不可能一步到位构建出强大的大语言模型，而是经历了从基础算法研究、数据收集清洗、模型架构优化到最终产品落地的完整过程。

李想也在活动上强调："如果规则算法都做不好，根本不知道怎么去做端到端；如果端到端没有做到一个极致的水平，那连VLA怎么训练都无从谈起。"这也再次证明，这个过程中没有捷径可走，每一步都是通往下一步的必要铺垫。

司机Agent，VLA的实力

说了这么多，VLA到底可以实现什么样的功能？

前面提到，VLA（Vision-Language-Action）是视觉-语言-行为大模型，代表着机器人大模型的新范式。它将空间智能、语言智能和行为智能统一在一个模型中，赋予了系统强大的3D空间理解能力、逻辑推理能力和行为生成能力，让自动驾驶系统真正具备感知、思考和适应环境的能力。

在理想最新公布的demo视频里，理想的这个“司机Agent”展示了其“能听懂人话”且“直接执行”的智能辅助驾驶能力：

比如在通过高速收费站时，可以直接说 “ 走人工 ” ，系统就可以从众多的 ETC 收费通道中转向人工收费通道。在日常的驾驶环节，也可以通过 “ 前方掉头 ” 和 “ 靠边停车 ” 的简单指令，调整行车路线 —— 就像是我们平时和代驾司机直接沟通的水准。

从技术原理上看，前文提到的端到端+VLM的阶段，VLA并非简单地将端到端模型和VLM模型结合在一起，而是所有模块的全新设计与整合。

据介绍，其工作流程可概括为：3D空间编码器通过语言模型处理后，与逻辑推理结合，给出合理的驾驶决策，并输出一组action token（动作词元）。这些action token是对周围环境和自车驾驶行为的编码，随后通过diffusion（扩散模型）进一步优化出最佳的驾驶轨迹。整个推理过程都发生在车端，并且实现了实时运行，这对计算效率和系统响应速度提出了极高要求。

我们尝试简单类比解读一下：

相对直观地理解VLA的工作原理，可以尽可能地将其想象成一个高效的驾驶决策链条。

理想称，理想辅助驾驶系统从"端到端+VLM双模型分立"向"VLA三位一体架构"的跃迁，本质上是突破了多模态协同效率与物理世界建模能力的双重瓶颈。

多模态协同效率问题可以理解为：之前的双模型架构就像两个专家各自独立工作——一个负责开车，一个负责理解指令，沟通效率低下。两个模型工作频率不同，联合训练和优化困难。想象一下两个人合开一辆车，一个人负责方向盘，一个人负责油门和刹车，却无法流畅沟通，这显然会导致驾驶不协调。VLA则将这两位专家的能力整合在一个大脑中，实现了无缝协作。

物理世界建模能力不足则更像是：基于千问等大模型的VLM虽然在互联网2D图文数据上训练充分，但对于3D世界的理解和专业驾驶知识存在短板。就像一个在模拟器上学习驾驶的人，缺乏真实道路的立体感和空间认知。VLA通过专门的3D空间编码技术和大量真实驾驶数据训练，弥补了这一不足。

从视频上的效果来看，VLA能够更好的处理人类驾驶行为的多模态性，可以适应更多驾驶风格。

这也是前文所提到的，语言模型和逻辑推理结合在一起之后，它能够成为一个听得懂、看得见、找得到，真正意义上的“司机Agent”。

“类似人和代驾的关系，人们怎么和代驾说，就怎么和司机Agent说。”

理想率先驶入无人区

很明显，VLA技术的突破，在汽车座舱和车辆驾驶层面进行了结合，也拉高了智能辅助驾驶系统的上限。

李想将智能辅助驾驶拆解成了三个发展阶段，用自然界中不同的物种进行了形象的比喻：

这同时也对应着李想本人对于AI工具的分级制度——信息工具、辅助工具和生产工具，"我觉得人工智能变成生产工具，然后才是真正人工智能爆发的时刻。"

一定程度上，这也是在强调，司机Agent——VLA技术有望成为具备这种生产工具特征的先驱者。

从人工智能行业来看，VLA是“机器人模型”的一种，是Physical AI的原型。在ChatGPT、Gemini等数字智能代表主导的软件智能浪潮之后，AI的下一个风口毫无疑问将是物理智能。汽车，作为最复杂的物理空间智能终端，是理想选择的主要切入口。一旦VLA模式在车上跑通，空间智能+语言智能+行为智能三者的融合，一定程度也将为其他领域的机器人模型打下范式基础。

OpenAI、DeepSeek等大模型公司虽强，但他们并未真正涉足汽车领域的空间智能与行为建模，更没有语料、数据和场景去覆盖家庭用户与真实路况的多样性。正因如此，理想选择了自己下场，打造自己的基座模型。实打实地讲，Language层上借助DeepSeek，但空间智能和行为智能部分也得靠自己一步步打磨，尝试建立闭环能力的雏形。

“交通工具”能否能成“空间机器人”尚未可知，但司机智能体确实是人工智能汽车化的无人区。

这场变革，不只是理想的突破，更是AI进化的必然。

正如手机并非因通话而被重新定义，而是因其成为“数字生活中枢”才改变了世界——今天的汽车，也将在VLA的驱动下，从“移动交通工具”进化为“移动智能空间”，成为AI与人的共生载体。

而这条从端到端走向VLA的进化之路，或许才刚刚开始。

点个爱心，再走吧

上一篇：三井住友银行将收购印度Yes Bank 20%股份

下一篇：沙特阿美2025年全球董事会在北京CBD举行

解读理想VLA司机大模型：你不用付费的专属“代驾”

相关内容

热门资讯