解读理想VLA司机大模型:你不用付费的专属“代驾”
创始人
2025-05-10 10:21:21
0

作者 | 王飞

邮箱 | wf@pingwest.com

当ChatGPT在2022年横空出世,大模型技术掀起全球科技浪潮时,它开始改变了人工智能,慢慢又改变了语音对话,它进一步地试探进入到了交互领域,但很少有人能预见到,仅仅三年后,这股AI革命浪潮会深刻地改变汽车行业。

这场关乎智能汽车的革命浪潮以一种名为VLA的技术展开,也是以一种“Agent”的方式。

如果你关注智能辅助驾驶行业,应该了解这两年的热词“端到端”。

关于VLA,全名则为Vision-Language-Action,作为视觉-语言-行为三位一体的大模型架构,不少业内人士将VLA技术视为当下“端到端”方案的进阶版本——它将空间智能、语言智能和行为智能统一在一个模型里,由此它也拥有更高的场景推理能力与泛化能力。

简而言之,有VLA赋能的车不再只是一个驾驶工具,而是一个能与用户沟通、理解用户意图的智能体,通过语言模型和逻辑推理结合在一起之后,它能够成为一个听得懂、看得见、找得到,真正意义上的“司机Agent”。

自动驾驶技术正在经历的一场静悄悄但深刻的范式转移:从规则驱动向学习驱动,从分布式感知-决策-控制向端到端一体化架构,再到今天VLA的多模态融合统一建模。技术不再只是模块叠加的堆栈,也不再满足于“看得见”和“听得懂”,而是要求AI真正“行动起来”。“司机Agent”也拥有像人类司机一样理解环境、做出判断并立即执行的能力——成为像人一样在复杂世界中感知、理解、推理和行动的整体智能体。

放眼硅谷到北京,大洋彼岸的Waymo到理想,在这种多模态模型与机器人框架的技术趋势中,理想汽车成为了中国车企中走在最前面的一位践行者。

在2025理想AI Talk第二季活动上,理想汽车董事长兼CEO李想聚焦理想汽车最新推出的VLA司机大模型,不仅展示了“司机Agent”,更通过他本人对AI与人性的深度思考,勾勒出了智能汽车发展的新范式——

AI不应该是简单地将"汽车智能化",而是真正实现"人工智能的汽车化"。

1

从NOA到VLA,理想为何要实现AI三段跳?

理想并非是突然转向VLA的。在此之前,也经历了充足的技术积累。

实话说,李想此前在第一季AI Talk上首次提出公司未来是一家领先的人工智能企业的时候,很多人可能并没有get到他在表达什么。

但如果你观摩了理想这连续的两季AI Talk活动,大概能看出这家公司是如何奔向“连接物理世界和数字世界,成为全球领先的人工智能企业”企业愿景的。

在第一季AI Talk活动中,理想展示出了技术路径其一:将公司汽车的销量挤到中国市场的领先地位,卖出年销量50万辆的汽车,在车上全部部署上端到端技术、Mind GPT,随后Mind GPT经过1.0/2.0,然后到3o多模态智能体的迭代后,理想决定推出理想同学App,让这个语音助手触及到更多的人。

第二季AI Talk活动中,理想回顾了在辅助驾驶领域的发展历程,我们也可以清晰地看到一条从量变到质变的技术演进路线:2023年年底,全场景NOA的推送标志着理想辅助驾驶从高速向城市场景的延展,为用户带来了更全面的智能辅助驾驶体验。而2024年7月15日推送的无图NOA功能,则首次实现了对先验信息依赖的突破,让车辆能够在没有高精度地图的情况下依然保持良好的驾驶表现。

2024年10月23日,理想汽车推送的端到端+VLM功能,真正意义上实现了One Model一体化端到端模型的大规模实践应用,并首次将大模型部署至车端量产芯片。这一突破性进展不仅体现了理想在AI算法上的深厚积累,更展示了其在车规级硬件与大模型融合方面的独特优势。

2025年3月18日,理想汽车正式发布下一代自动驾驶架构VLA。这在业内算是一次质的飞跃——当众多汽车品牌仍在为L2级辅助驾驶技术优化细节时,理想汽车却完成了一场田径运动中的"三级跳",通过层层递进取得成绩,理想汽车的智能驾驶技术经历了从规则算法、到无图NOA、再到端到端+VLM,最终迈向VLA司机大模型的"三段"进化。

如果从结果来验证这其中的规律:从无图NOA到端到端+VLM,再到VLA司机大模型,每一步都至关重要,且每一阶段都是不可跨越。

比如NOA这一阶段的核心在于感知能力和环境适应性的提升,是连接规则算法和端到端模型的关键桥梁。

第二阶段端到端+VLM功能,标志着从规则驱动向数据驱动的根本转变。

前两个阶段的技术沉淀,解决了两个问题:一是前期没有足够的数据支撑模型训练;二是缺乏规则约束导致的安全风险。

汽车驾驶不同于简单的互联网应用,它直接关系到用户的生命安全,需要在实际道路环境中反复验证和迭代。

如果没有通过前期收集的大量实际道路数据和规则算法的约束,成功训练出了稳定可靠的端到端模型,并将其与VLM视觉语言模型结合,就无法初步实现了系统对环境的"理解",只是简单的"识别"。

理想的VLA从“辅助”到“智能体”的跃迁,建立在前三个阶段所有技术积累的基础之上。如果没有规则算法打下的基础,系统就无法理解基本驾驶规则;如果没有无图NOA阶段锻造的环境适应能力,系统就无法应对未知场景;如果没有端到端+VLM阶段的模型整合经验,VLA的三位一体架构就无从谈起。

从一定程度上来说,VLA技术的成功离不开中国本土AI市场的崛起。

另外,也正如DeepSeek在大模型领域的发展路径所示,从构建集群能力到基建、链路的优化,通过这些前期的积累,才能实现低成本和高效率的AI应用。DeepSeek不可能一步到位构建出强大的大语言模型,而是经历了从基础算法研究、数据收集清洗、模型架构优化到最终产品落地的完整过程。

李想也在活动上强调:"如果规则算法都做不好,根本不知道怎么去做端到端;如果端到端没有做到一个极致的水平,那连VLA怎么训练都无从谈起。"这也再次证明,这个过程中没有捷径可走,每一步都是通往下一步的必要铺垫。

1

司机Agent,VLA的实力

说了这么多,VLA到底可以实现什么样的功能?

前面提到,VLA(Vision-Language-Action)是视觉-语言-行为大模型,代表着机器人大模型的新范式。它将空间智能、语言智能和行为智能统一在一个模型中,赋予了系统强大的3D空间理解能力、逻辑推理能力和行为生成能力,让自动驾驶系统真正具备感知、思考和适应环境的能力。

在理想最新公布的demo视频里,理想的这个“司机Agent”展示了其“能听懂人话”且“直接执行”的智能辅助驾驶能力:

比如在通过高速收费站时,可以直接说 “ 走人工 ” ,系统就可以从众多的 ETC 收费通道中转向人工收费通道。在日常的驾驶环节,也可以通过 “ 前方掉头 ” 和 “ 靠边停车 ” 的简单指令,调整行车路线 —— 就像是我们平时和代驾司机直接沟通的水准。

从技术原理上看,前文提到的端到端+VLM的阶段,VLA并非简单地将端到端模型和VLM模型结合在一起,而是所有模块的全新设计与整合。

据介绍,其工作流程可概括为:3D空间编码器通过语言模型处理后,与逻辑推理结合,给出合理的驾驶决策,并输出一组action token(动作词元)。这些action token是对周围环境和自车驾驶行为的编码,随后通过diffusion(扩散模型)进一步优化出最佳的驾驶轨迹。整个推理过程都发生在车端,并且实现了实时运行,这对计算效率和系统响应速度提出了极高要求。

我们尝试简单类比解读一下:

相对直观地理解VLA的工作原理,可以尽可能地将其想象成一个高效的驾驶决策链条。

理想称,理想辅助驾驶系统从"端到端+VLM双模型分立"向"VLA三位一体架构"的跃迁,本质上是突破了多模态协同效率与物理世界建模能力的双重瓶颈。

多模态协同效率问题可以理解为:之前的双模型架构就像两个专家各自独立工作——一个负责开车,一个负责理解指令,沟通效率低下。两个模型工作频率不同,联合训练和优化困难。想象一下两个人合开一辆车,一个人负责方向盘,一个人负责油门和刹车,却无法流畅沟通,这显然会导致驾驶不协调。VLA则将这两位专家的能力整合在一个大脑中,实现了无缝协作。

物理世界建模能力不足则更像是:基于千问等大模型的VLM虽然在互联网2D图文数据上训练充分,但对于3D世界的理解和专业驾驶知识存在短板。就像一个在模拟器上学习驾驶的人,缺乏真实道路的立体感和空间认知。VLA通过专门的3D空间编码技术和大量真实驾驶数据训练,弥补了这一不足。

从视频上的效果来看,VLA能够更好的处理人类驾驶行为的多模态性,可以适应更多驾驶风格。

这也是前文所提到的,语言模型和逻辑推理结合在一起之后,它能够成为一个听得懂、看得见、找得到,真正意义上的“司机Agent”。

“类似人和代驾的关系,人们怎么和代驾说,就怎么和司机Agent说。”

1

理想率先驶入无人区

很明显,VLA技术的突破,在汽车座舱和车辆驾驶层面进行了结合,也拉高了智能辅助驾驶系统的上限。

李想将智能辅助驾驶拆解成了三个发展阶段,用自然界中不同的物种进行了形象的比喻:

这同时也对应着李想本人对于AI工具的分级制度——信息工具、辅助工具和生产工具,"我觉得人工智能变成生产工具,然后才是真正人工智能爆发的时刻。"

一定程度上,这也是在强调,司机Agent——VLA技术有望成为具备这种生产工具特征的先驱者。

从人工智能行业来看,VLA是“机器人模型”的一种,是Physical AI的原型。在ChatGPT、Gemini等数字智能代表主导的软件智能浪潮之后,AI的下一个风口毫无疑问将是物理智能。汽车,作为最复杂的物理空间智能终端,是理想选择的主要切入口。一旦VLA模式在车上跑通,空间智能+语言智能+行为智能三者的融合,一定程度也将为其他领域的机器人模型打下范式基础。

OpenAI、DeepSeek等大模型公司虽强,但他们并未真正涉足汽车领域的空间智能与行为建模,更没有语料、数据和场景去覆盖家庭用户与真实路况的多样性。正因如此,理想选择了自己下场,打造自己的基座模型。实打实地讲,Language层上借助DeepSeek,但空间智能和行为智能部分也得靠自己一步步打磨,尝试建立闭环能力的雏形。

“交通工具”能否能成“空间机器人”尚未可知,但司机智能体确实是人工智能汽车化的无人区。

这场变革,不只是理想的突破,更是AI进化的必然。

正如手机并非因通话而被重新定义,而是因其成为“数字生活中枢”才改变了世界——今天的汽车,也将在VLA的驱动下,从“移动交通工具”进化为“移动智能空间”,成为AI与人的共生载体。

而这条从端到端走向VLA的进化之路,或许才刚刚开始。

点个爱心,再走 吧

相关内容

热门资讯

中旭未来(09890)正式签订... 中旭未来(09890)发布公告,兹提述本公司日期为2025年2月26日的自愿公告,本公司间接全资附属...
第20届光博会开幕,近百项光电... 5月16日,第20届“中国光谷”国际光电子博览会(简称“光博会”)在武汉开幕。本届光博会首次纳入“国...
直辖市一公安分局局长任上落马 转自:上观新闻16日下午,重庆市纪委监委发布消息:重庆两江新区管委会副主任、公安分局局长罗仑涉嫌严重...
杭州“助跑”科技成果转化 力争... 来源:中国新闻网 中新网杭州5月16日电(鲍梦妮)16日,2025年杭州市“315”科技创新体系建设...
香港恒生指数全周累升477点 ... 来源:中国新闻网 中新社香港5月16日电 (记者 戴小橦)香港恒生指数16日收报23345.05点,...
劲旅环境:近日签署新能源特种车... 每经AI快讯,劲旅环境(001230)5月16日晚间公告,公司因战略发展需要于江苏省钟楼高新技术产业...
江苏雷利发布新一代灵巧手 推出... 上证报中国证券网讯(记者孙小程)5月16日,江苏雷利在“智控无界·灵动未来” 2025年度工业智控产...
一周三家IPO 资本市场“江苏... 5月16日,汉邦科技、泽润新能分别在沪深交易所上市。加上5月13日登陆北京证券交易所的天工股份,本周...
广西:没有免罪"丹书... 5月16日,广西壮族自治区党委常委会召开扩大会议,通报蓝天立涉嫌严重违纪违法,目前正接受中央纪委国家...
中旭未来与恺英网络签订AI公司... (转自:观点网)观点网讯:5月16日,中旭未来宣布正式签订AI公司投资协议及三年游戏产品合作备忘录。...
美股异动 | Q1扭亏为盈 Q... 周五,Quantum Computing(QUBT.US)股价暴涨,截至发稿,该股涨超31%,报12...
中国首个“智慧铁路口岸+属地快... 【中亚专线】中国首个“智慧铁路口岸+属地快速通关”模式落地新疆中新社乌鲁木齐5月16日电 (胡嘉琛)...
美股异动 | 私募一季度大举加... 周五,唯品会(VIPS.US)股价走高,截至发稿,该股涨超8%,报15.68美元。消息面上,在今年年...
“富德系”拟62亿元收购广汇能... 5月16日,广汇能源(600256.SH,股价6.03元,市值391.71亿元)公告称,富德生命人寿...
2025年环境应急管理工作会议... 5月16日,2025年环境应急管理工作会议在四川成都召开,总结“十四五”以来工作进展,谋划“十五五”...
​特朗普:伊朗不能拥有核武器! 美股三大指数集体高开。截至发稿,道指涨0.08%,纳指涨0.22%,标普500指数涨0.13%。诺和...
“国际一流营商环境”的五大共性... 界面新闻记者 | 刘素楠界面新闻编辑 | 彭朋“德国城市斯图加特只有约60万人口,是全球最重要的汽车...
中银证券给予万润股份买入评级:... 中银证券5月16日发布研报称,给予万润股份(002643.SZ)买入评级。评级理由主要包括:1)20...
中国中铁全资子公司新增一项24... (转自:快查一企业中标了)快查APP显示,中国中铁相关公司中铁三局集团有限公司于2025年5月16日...
胖东来今年累计销售额已超90亿... 每经编辑|张锦河     5月16日,胖东来创始人于东来发文辟谣直播带货。于东来称...