中国的“马斯克” 李想分享VLA训练细节
创始人
2025-05-08 12:47:17
0

经观汽车

2025年5月8日,距离“AI Talk”第一季播出已有130天,面对镜头,理想汽车创始人李想坦言:“人工智能发展得这么快,但我每天的工作时间并没有减少。”这一句话,道出了他对AI技术落地路径的冷静思考,也预示着理想汽车在智能化道路上的阶段跃迁。

在这场持续数小时的访谈中,李想系统性地阐述了他对AI工具分级的理解——从信息工具、辅助工具,到生产工具。而在理想的语境中,生产工具意味着AI真正进入价值创造的核心。这场技术演化的关键,正在从模型的堆叠走向具象能力的整合与释放。

过去四个月,中国本土大模型迎来了突飞猛进的发展。李想在谈话中频频提及DeepSeek——这一国产大模型体系,在技术架构、推理能力和工程效率上的表现,让理想汽车决策层重新评估了其VLA(视觉-语言-行动)战略的实施路径。

“DeepSeek给了我们一个巨大的推动力。”李想坦承,原本计划在年底完成的基座模型,因DeepSeek的开源提前了九个月完成基础设施建设。

也正是出于这种“被帮助之后的反馈机制”,理想汽车选择开源自研四年的星环OS整车操作系统。“我们受到了那么大的帮助,应该给社会做一些贡献。”李想说。

他提到,在过去的春节期间,理想团队围绕DeepSeek展开了全面研究,从模型的MoE(混合专家)结构、训练效率、到部署难度,进行了详尽评估。“这不是简单的‘借用’,而是站在巨人的肩膀上再进一层。”他说。

从规则到端到端,再到VLA

李想认为,人工智能走向生产力的关键在于Agent能力的释放,即AI不再只是辅助人类思考和判断,而是能够独立完成专业工作,承担“替代性”的角色。理想汽车当前的VLA战略,正是对这一目标的路径设计。

VLA,即“视觉-语言-行动”模型,是理想汽车提出的辅助驾驶大模型方案。李想将VLA的发展划分为三个阶段:

第一阶段是以规则算法为主的“昆虫智能”,高度依赖地图和预设规则,类似蚂蚁在路径上的机械执行。

第二阶段是当前正在推进的端到端模型,通过大数据学习形成对行为的模仿,类似“哺乳动物式”的感知和反应,虽不完全理解物理世界,但能完成一定泛化任务。

第三阶段,即VLA阶段,则是李想眼中“类人智能”的起点。它不仅能够看懂导航界面、识别3D场景,还能进行语义推理(Chain of Thought),具备主动判断和行动的能力。“这是我们的‘司机大模型’。”李想说。

为了达成这一目标,理想汽车正在训练一个32B规模(即320亿参数规模)的VL(视觉-语言)基座模型。李想详细介绍了训练的三个关键部分:

首先,是视觉方面的token和语料。理想在模型中纳入了大量3D视觉数据,即来自物理世界的三维信息,同时还引入了高清2D图像数据,分辨率相比开源多模态模型提升了10倍,以解决当前2D视觉模态清晰度不足、识别距离有限的问题。

其次,是语言部分的输入。模型训练加入了大量与交通、驾驶行为相关的语言语料,以强化其在实际场景中的语义理解能力。

第三个关键点,是视觉与语言的联合语料(VL语料)。李想强调,这一部分极易被忽视,但对VLA至关重要。联合语料指的是图像信息与语言语义同时存在于一个数据单元中,比如导航地图与车辆对其的语义理解共同输入模型,帮助模型建立起从视觉到语言再到行动之间的深度联结能力。

“过去的VLM(视觉-语言模型)大多只是能看图说话,但理解不了世界。我们要的是一个能看懂真实世界、理解物理规则、具备行动意图的大模型。”李想指出。

在谈及基座模型的研发投入时,李想表示:“我们今年的训练卡采购量,是原定计划的三倍。”这一扩张级别,反映出理想汽车在自研基础模型上的战略押注。

尽管DeepSeek的开源带来了加速效应,李想并未对自研路径抱有任何侥幸心理。他反复强调:“没有任何捷径。如果规则算法做不好,根本不知道怎么走端到端。端到端不做到极致,就没法训练好VLA。”

这也解释了为什么理想汽车仍然坚持构建自己的基座模型,而不是完全依赖第三方平台。“我们的任务不仅仅是对话生成。我们要的是对多模态世界的理解,是真正为汽车场景服务的智能体。”李想说。

谈及行业格局,李想将DeepSeek比作“Linux时刻”,而理想追逐的,则是“安卓时刻”。

“语言模型只是底座,真正的爆发在于将其部署于特定领域,释放出完整的应用能力。”他表示,在交通领域,理想希望借由VLA构建出具备认知、推理和行动能力的类人驾驶模型。

这一愿景背后,是理想汽车从底层操作系统到多模态大模型全面自研的技术链闭环。而在产业层面,这也意味着一场从传统规则驱动到智能体驱动的范式跃迁正在发生。

李想认为,辅助驾驶行业当前正处于“黎明前的黑暗”。争议与困境并存,但这正是新范式到来的前夜。“我最愿意解决的就是别人解决不了的问题。”他说。

在理想汽车的路径图中,AI不再是一个效率工具,而是一个系统性、可扩展、可以承担主角的“生产工具”。在这个定义之下,VLA不仅是技术跃迁的起点,更是理想汽车试图重塑人车关系、重塑交通智能产业的路径尝试。

相关内容

热门资讯

事关多孩家庭购房!泉州楼市再出... 泉州楼市新政来袭,对于多孩家庭购房带来重大利好。新政明确给予多孩家庭购房支持,降低购房门槛。多孩家庭...
信达证券-医药生物行业周报:阶... (转自:研报虎)本期内容提要:  市场表现:本周医药生物板块收益率为]1.01%,板块相对沪深300...
今天福建中南部地区仍有强对流天... 今日,福建中南部地区持续遭遇强对流天气的“侵袭”。乌云密布,电闪雷鸣,狂风裹挟着暴雨肆意倾泻而下,给...
科学减重,多学科、个性化是关键 转自:南京晨报 5月11日是“中国肥胖日”,5月8日上午,江苏省人民医院(南京医科大学第一附...
去年优良天数创下历年之最     本报讯(记者  王斌)5月9日,北京市生态环境局发布《2024年北京市生态环境状况公报》(以...
普法也须“以事实为根据,以法律...     杜蒿坨    近日,山东省青岛市李沧区人民法院发布的“两行人相撞案”普法案例引发争议。该法院...
4S店授权资格被撤销 消费者购... 重庆运通欣宝4S店维修车间 “我刚去保养我的车,却发现他们这家4S店已被宝马中国总部撤销了授权资格,...
开展垃圾分类志愿服务活动 转自:南京晨报 晨报讯(通讯员 白一寒 南京晨报/爱南京记者 端木)为深入贯彻市、区垃圾分类...
北京建成区海绵城市达标面积将达...     从昨天起至17日是第34届全国城市节约用水宣传周。北京青年报记者从市水务局获悉,今年全国城市...
剪纸传情、空竹迎客 北京大兴亦... 转自:千龙网“退伍老兵向西藏代表赠送纪念品,西藏代表给予哈达回礼。”这一幕,发生在5月11日于大兴区...
“金鱼嘴每日路演”走进建邺区双... 转自:南京晨报 晨报讯(南京晨报/爱南京记者 孔芳芳)自2021年金鱼嘴基金街区推出金鱼嘴每...
《滕王阁序》AI率100%?别... 转自:千龙网又是一年毕业季,多个关于大学生毕业论文AI率“亮红灯”的帖子引发热议。有大学生反映,毕业...
中国外贸为何能交出超预期“韧性... 转自:千龙网中国外贸平稳增长,体现了中国经济的韧性与活力,也给世界带来更多利好与确定性。中国始终坚持...
2025华为福建产业生态伙伴大... 2025 年,华为福建产业生态伙伴大会盛大举办。这是一场汇聚福建地区及周边产业精英的盛会。大会现场氛...
优秀!这些闽籍大学生拟获奖学金 这些闽籍大学生拟获奖学金,他们是闽地教育的骄傲。他们在学业上勤奋刻苦,以优异的成绩展现了闽籍学子的风...
邂逅山风与海韵 转自:衢州日报  记者 汪晨云 通讯员 蓝萦  刚刚过去的“五一”假期,衢州市美术馆内人潮涌动。“山...
三级人大代表走基层征求意见建议     本报讯(记者  蒋若静)根据市人大常委会2025年工作要点,今年市人大常委会对文明行为促进条...
6岁男娃确诊性早熟 这个征兆出... 转自:南京晨报 6岁男孩小磊(化名)个子突然长得很快很高,不仅个子生长速度快睾丸也增大了,妈...
福建提高革命“五老”人员生活补... 福建高度重视革命“五老”人员,近日大幅提高了他们的生活补助标准。这一举措彰显了对革命先辈的敬重与感恩...
享受慢读的惬意 转自:衢州日报  马晓炜  有文友说:“好书如佳酿,需慢慢品、细细尝,方能品出阳光的芬芳与粮食的真味...