炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:36氪)
用纯电车型杀入家用市场,理想是否拥有销量新筹码?
7月29日,理想旗下首款纯电SUV车型i8上市,售价32.18万至36.98万元。从理想i8可以看到,空间魔法和舒适配置依然是理想汽车的产品亮点之一。
作为一款中大型纯电SUV,理想i8采用了三排六座布局,无论是二排中间过道还是三排腿部空间,理想都做到了同级别优秀水平。车内舒适的背后,理想牺牲了后备箱空间,在车内六座乘客满员的情况下,后备箱似乎未能容纳六人份行李。
相较其他纯电品牌,理想i8在配置上也采用了不同思路。理想i8共推出三种配置,5C超充电池与双腔空气悬架全系标配。对于追求舒适性、又存在里程焦虑的消费群体而言,这是不错的吸引力。
不过,空间与配置并不是i8的最大看点,理想似乎把重点押注在VLA大模型加持的辅助驾驶系统上。
VLA大模型会是理想的新增长空间吗?
AI大模型在理想i8发布会上占据了很大篇幅,这家销量领先的新势力汽车品牌转型AI公司意图明显。这其中,辅助驾驶的VLA大模型,是理想给未来押注的重要筹码。
VLA是理想汽车提出的辅助驾驶新技术路线,相较目前行业主流的端到端路线,VLA的特点是让汽车辅助驾驶实现自我升级,借助AI大模型扩大数据数量与多样性,让辅助驾驶系统学习更多障碍物样本与交通规则等。
理想认为,VLA能通过3D和2D视觉的组合,完整地看到物理世界,而不像VLM仅能解析2D图像。同时,VLA拥有完整的脑系统,具备语言、CoT(思维链)推理能力,既能看,也能理解并真正执行动作,符合人类的运作方式。
从技术原理看,VLA的确有希望解决端到端路线的弊端:由于企业能收集的数据有限,端到端路线面对极限场景常常缺乏处理能力。
但不同技术路线有不同的挑战,VLA是辅助驾驶技术路线的无人区,理想并没有范本可以参考。无论是自研模型,还是数据训练,理想都需要自行摸索。所以理想如何研发VLA,VLA大模型的实际效果如何,汽车行业都在密切关注。
在理想i8发布会前一周,理想在北京组织了一场媒体沟通会,自动驾驶研发高级副总裁郎咸朋及其核心研发团队成员与36氪等媒体展开交流,关于VLA大模型的路径与效果,理想汽车给出了全面解答。
以下是36氪等媒体和理想的对话,略经改编:
问:VLA司机具备推理能力,并且表现更像人了,但是需要几秒钟的推理时间,请问在突发场景下,VLA司机是怎么进行快思考的?
郎咸朋:您认为思考过程很慢实际上是显示的原因,本身推理速度是很快的,只是为了让大家能够看地更清楚我们摘取了一些重要的思考过程显示出来。实际上现在VLA的推理帧率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
问:您刚才提到现在用MindGPT作为基座模型进行训练,这比之前的模型好用吗?
詹锟:我们自研的基座模型对部署VLA有很大作用,我们VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,并不是业界任何一个开源模型都能达到这个效率。
之前在AI Talk上提到过我们是MoE的0.4×8的架构,目前没有任何一个架构是这样的,这是我们与基座团队共同研发,专门对嵌入式芯片做了定制的MoE混合专家架构,在这个架构上我们才能达到这样的效果。
VLA的推理帧率在10Hz左右,每一帧都会经过语言模型,这其中会有比较快的思考,也有会有比较长的思考,我们做了很多的优化,把思考过程尽可能地能够在车端推理出来。
问:您是如何判断自动驾驶落地的时间表?如何进行商业变现?
郎咸朋:从技术层面看,我们认为VLA模型是可以走向更高级别的自动驾驶,但它现在处于起步阶段,在这个技术周期里,起步阶段VLA模型约等于端到端的上限,它还有很长一段路要走。但我认为这个过程不会特别慢,因为端到端从10MPI到现在100MPI只用了一年左右的时间,我相信VLA的迭代速度也会非常快,可能我们明年坐在这儿的时候它已经迭代到1000MPI了。
去年我和大家沟通过,今年端到端会迭代是被、当时很多人也认为不太可能,但我们的确做到了。所以VLA模型的迭代速度也会非常快,但前提是要有完备的基础能力,如算法、算力和数据等,并且要有工程能力的支撑才能够实现。尤其VLA的训练和端到端是不一样的,它需要更多的和成熟和仿真环境来进行强化学习的训练,和之前只是单纯依靠实车的数据模仿学习训练是完全不同的。
商业变现的影响因素非常多,最核心的是国家的法律政策。理想汽车也在积极参与国家相关政策法规的讨论小组,从技术上来看L4级别的自动驾驶落地是非常快的,但从商业角度上看,还有很多问题需要考虑,比如保险,事故之后的赔偿等。
问:是否可以用更通俗的方式介绍一下VLA模型的难度在哪里?对企业的要求是什么?如果一个企业想要落地VLA模型会面临哪些挑战?
郎咸朋:曾经也有很多人问过如果车企想做VLA模型是不是可以跳过前面的规则算法,跳过端到端阶段,我认为是不行的。虽然VLA的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的,如果没有完整的通过实车采集的数据闭环,是没有数据能够去训练世界模型的。
理想汽车之所以能够落地VLA模型,是因为我们有12亿数据,只有在充分了解这些数据的基础上,才能够更好的生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力的支撑需要大量资金和技术能力,如果没有之前的积累是不能完成的。
问:目前有一些友商的车载算力已经到2000TOPS了,这其中有一部分算力是提供给座舱的,请问未来理想汽车在车载算力上的规划是怎样的?有没有标准?
郎咸朋:实际上算力和量化精度是相关的,也就是如何使用芯片。如果使用精度比较高的表达方式,等效算力或有效算力会低一些,但如果使用更好的量化精度,算力就会高。因为我们不清楚其它企业的量化精度,所以很难评判。我们在车载算力上有更加长期的规划,但现在不方便透露。
问:请问未来理想汽车把自动驾驶能力推升的过程中对于算力储备和卡的规划是怎样的?是否能够介绍一下从规则算法时代到模仿学习阶段,再到强化学习阶段,在这个三个阶段期间,理想汽车的算力增长节奏是怎样的?
郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练的卡只是用于训练BEV模型和感知模型,相对数量较少,但在端到端时代,模型训练需要大量算力及训练卡,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。
问:智能驾驶存在一个“不可能三角”,也就是效率、舒适和安全三个目标之间是互相制约的,目前阶段可能难以同时实现。请问理想汽车的VLA目前在当前阶段最先优化的指标是哪一个?刚刚提及到MPI,是否可以理解为目前理想汽车最终的指标是提升安全性以有效减少接管?
郎咸朋:MPI是我们衡量的指标之一,还有一个指标是MPA,也就是指发生事故的里程,现在是300万公里左右。理想车主的人驾数据是60万公里左右出一次事故,而在使用辅助驾驶功能的情况下是350到400万公里发生一次事故。这个里程数据我们还会持续提升,我们的目标是将MPA能提升到人类驾驶的10倍,也就是比人驾安全10倍,我们希望在辅助驾驶功能下能够做到600万公里才出一次事故,但这必须等到VLA模型提升之后才能做到。
针对MPI,我们也做过分析,可能一些安全风险问题会导致接管,但有时候舒适度不好也会导致接管,比如急刹、重刹等,因为并不一定每次都会遇到安全风险,但是如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。因为MPA可以衡量安全性,在MPI方面,除了安全性之外,我们重点提升了行车舒适度,如果体验了理想i8的辅助驾驶功能,会体验到舒适度比之前的版本有很大提升。
效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。
问:刚提到今年实车测试是2万公里,请问大幅减少实车测试的依据是什么?
郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。
从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。
问:通常的做法是保持实测测试规模,大幅增加仿真测试数量,从理想汽车的实际反馈看,仿真测试的效果是比实车测试好很多对吗?
郎咸朋:是的。仿真测试效果好,成本低,为什么不用仿真测试呢?我们保留实车测试是为了一些必要内容,任何技术的提升一定伴随着研发流程的变革,工业时代来临后,刀耕火种的流程被机械化替代;信息时代后,网络替代了大量工作。
在自动驾驶时代也是一样,端到端时代来临后,我们进入了使用AI技术做自动驾驶的方式,从雇佣大量工程师、算法测试人员,到数据驱动,通过数据流程、数据平台和算法迭代提升自动驾驶能力。而进入了VLA大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果这其中仍有大量的实车和人工介入,速度是会降低的。
并不是我们一定要替代实车测试,而是这项技术,这个方案本身就要求要使用仿真测试,如果不这样做,并不是在做强化学习,并不是在做VLA模型。
问:刚刚分享了端到端的瓶颈和一些无法解决的问题,VLA是当时唯一考虑的路线吗?还是有其它的选择?
郎咸朋:我们并没有很纠结方案。因为我们一直保持着对前沿算法的预言和探索,做端到端的时候我们也在考虑下一代人工智能技术,当时业内最有前途的就是VLA技术方案,但并不是只是用于自动驾驶,它是具身智能领域的技术。
我们认为它也是未来机器人领域的通用技术框架,其实自动驾驶也是一种机器人,是自主行驶的机器人,如果未来我们希望做其它机器人,也都可以基于类似的VLA框架,所以我们经过了长时间的调研和探索,制定了VLA的技术方向。
问:刚郎博提到如果量化精度高的话,可以在Thor芯片上实现翻倍的算力,为什么理想汽车能够最大限度压榨芯片的能力?基于这个能力,理想汽车是否还会自研智驾芯片?
詹锟:我们从去年开始用Orin芯片做大模型部署,当时英伟达觉得这是不可能的,但我们认为这是必须要要做的,和英伟达做了非常详细的剖析和拆解,我们的工程团队、部署团队做了非常多的工作,包括我们魔改CUDA的底层,重写PTX底层指令,才能实现现在的效果。
理想汽车自动驾驶团队的工程部署能力是一以贯之的,从早期在地平线J3部署高速NOA,到在Orin芯片上部署大模型,再到现在在Thor芯片上部署VLA高频快速的大模型。这些都是有工程积累和工程实践的,很多技巧和分析方法,以及基础设施的工具链都继承下来了。
这其中很关键的一点是我们打磨细节的能力,芯片能否被压榨最主要的事做底层分析,解决瓶颈热点。刚刚郎博分享了很多我们解决的问题,大家会发现VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率,这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片目前的能力更匹配。大家会常用的推理模型会用FP16,我们把它降到FP8,性能做了非常的提升,同时FP4也是英伟达在最新的Blackwell架构中非常推崇的,我们会进一步把芯片算力压榨出来。
郎咸朋:自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性,所以我们依然在用Thor芯片。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。
问:您刚才讲到从规则到端到端+VLM是比较大的技术路线革新,但VLA其实没有颠覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的创新?
詹锟:VLA不只是工程方面的创新,大家如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,这本质就是提出了一个VLA算法,我们的VLA模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出,也是最早开始实践的。
VLA也是一种端到端,因为端到端的本质是场景输入,轨迹输出,VLA也是如此,但算法的创新是多了思考。端到端可以理解为VA,没有Language,Language对应的是思考和理解,我们在VLA中加入了这一部分,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新,不只是工程创新。
但对于自动驾驶而言,很大的挑战是必须要有工程创新。因为VLA是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为VLA不好,而是因为VLA部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。
问:VLA大模型在车端部署的时候是否会有一些轻量化的版本,比如模型裁剪或蒸馏版本?如何在推理效率和模型之间做好平衡?
詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。我们的基座模型是自研的8x0.4B的MOE模型,这是业界没有的,我们在深入分析英伟达芯片后,发现这个架构非常适合它,推理速度快的同时模型容量大,能够同时容纳不同场景、不同能力的大模型,这是我们在架构上的选择。
另外,我们是大模型蒸馏出来的,我们最早训练了一个32B的云端大模型,它容纳了海量的知识和驾驶能力,我们把它做出的思考和推理流程蒸馏到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我们用这样的方法做了非常多的优化。
从细节上来看,我们也针对Diffusion做了工程优化,并不是直接使用标准Diffusion,而是进行了推理的压缩,可以理解为一种蒸馏。以前Diffusion可能要推理10步骤,我们使用了flow matching流匹配只需要推理2步就可以了,这方面的压缩也是导致我们真正能够部署VLA的本质原因。
问:我们在测试时看到了,可以对VLA说前进10米。您也提到了这个概念,大模型在训练数据中是没有学习过这么具体的概念的,理想汽车是如何发现\了解背后机制的?另外,人类是否能信任大模型做出的判断?
詹锟:首先,我们不会单纯地让模型学习向前走10m、12m这样生硬的数据,但是在海量的通识数据中,有很多对物理空间的理解。比如前方白车距离多少米,前方路沿和我有多少距离,而且现在大模型也已经加入很多物理空间的知识,包括现在的ChatGPT、千问都具备这样的能力,把这些能力在大模型里学习之后,我们只需要在action中把它体现出来。
刚刚分享了五步训练法,第一步就是加入通识能力和物理世界的知识,在第二步时相对进行一些微调,将这样的能力和action结合,就能够实现,这是端到端的学习思路就能做到的。其实有一些背后的机制和现在的大模型是非常一致。当我们把海量数据喂给它以后,这些数据具备组合泛化能力,并不是教什么学什么,当量级达到一定规模时,会涌现出一些能力,包括行为,并不是说必须11m、12m、13m,分别教才行。它懂了数字,懂了米数,当你在给它一个新的东西,它就存在一种组合泛化的机制。
这是大模型理论研究非常多的,但目前这样的机制是可以在各个领域进行泛化应用的。所以我们很多能力和知识就是各个学科交叉的融合,我们也非常关注现在大模型的进展,随时可以向自动驾驶上迁移。
问:大语言模型可能缺乏长期记忆能力和长期规划,在刚刚的VLA测试中会看到一些在某条路上开多少速度的能力,在这方面理想汽车做了怎样的改进?
詹锟:大家可以发现,近一年,大模型和Agent的发展是非常快的。大模型用到了很多tools能力,包括RAG能力,刚刚看到的记忆就是RAG能力。当我们发出指令之后可以外挂在RAG中,当下次到这里的时候可以很容易调度它,它能够记得之前到这个地方的时候发出过这样的指令,就能够加到prompt中。我们会进行prompt的微调,本质是把这些知识放入VLA输入中,大模型会具备这样的能力。
当我们把大模型系统看做一个Agent,本质是它是一个以大模型为中心构建的系统,这其中有tools,RAG外挂系统来增强它的记忆和规划能力,让他形成一个真正的完整的智能体,我们做了很多工作才实现了这样的功能。
问:郎博提到物理世界中实车测试是无法100%复现场景的,在仿真测试过程中是怎样做到100%复原的?为什么理想汽车可以做到?
湛逸飞:我们在2024年还是进行了150多万公里的实车测试。实际上我们在2024年就已经具备了世界模型仿真能力,我们在用这150多万公里的实车测试来验证仿真环境的可靠性。事实上,最初世界模型仿真复现率或真实性是存在问题的,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。
虽然并没有达到100%,但准确率也可以在99.9%以上。举一个简单的例子,在仿真环境中最开始红绿灯的变化在200米外是看不清楚的,于是我们针对红绿灯的视野模型仿真进行了大量的优化,包括对30°相机分辨率的提升。我们用过去一年的时间将仿真系统的可靠性提升到了很好的程度,才会放心地去使用这套系统。
问:近期理想汽车发布了OTA7.5版本,这次的重磅升级是超级对齐监督模型的发布,这对VLA实现人类老司机体验的作用和意义是什么?
郎咸朋:OTA7.5版本的超级对齐做了两件事,第一,对数据配比进行调整,使得模型训练的数据质量和数据覆盖提升;第二,增加了后处理能力,比如法律法规类的规则,强制让模型输出符合法规或合规的规定,让它更加符合人类驾驶习惯要求。
VLA很重要的意义是为我们提供了很多评测场景,刚刚提到我们在过去一年的迭代过程中积累了大量用于仿真评测的场景,现在的VLA模型仿真得分已经超越OTA7.5版本的得分,我们把OTA7.5版本超级对齐的一些场景用VLA的模型再去跑一遍,看它在这个场景里的通过率和得分率。
超级对齐里也用了很多仿真测试,在超级对齐之前我们还没有特别大量地使用仿真环境进行测试,在超级对齐中我们可以达到单天峰值30万公里的仿真里程。
所以,它对VLA的意义就是它为VLA积攒了很多评测场景和数据,假设其他团队在做VLA模型,单纯评测就是一项挑战,需要积累很多的场景。我们在VLA模型中能够快速迭代的原因是VLA评测就像之前的实车评测一样,在实车评测时大家都有自己的方式和场景,我们的VLA仿真评测已经在超级对齐里做好了基础,现在已经有超过40多万个场景评测了,我们还会持续补充,超级对齐对VLA的意义最重要的就是在评测方面。
问:郎博提到 VLA 要成为“更好的家庭司机”,那在驾驶风格或“司机性格”的个性化定制方面,未来是否会有更多可能性?
郎咸朋:我们也在考虑给不同的车、不同的使用者跟你相类似的驾驶风格的体验,不会所有车都是一套驾驶风格,因为强化学习是有这个能力来支撑它这个车越开越像你的风格或体验,之前端到端可能还不具备这样的能力。不是设定的你自己的路线、你自己驾驶的风格会越开越像你的,我们也在考虑端上的强化训练。
问:在Thor的FP8格式下实现1000TOPS算力,而行业普遍采用FP16处理算子。如何做到将精度从FP16降至FP8时保持模型精度(不掉点)?向FP4演进时需突破哪些关键技术?Blackwell已支持FP4原生硬件,但INT4如何处理?Orin-X等平台缺乏FP4原生支持,如何平衡硬件兼容性与计算效率?FP4实现2000TOPS等效算力后,能否支撑类人感知的帧率(如3FPS)? 关键瓶颈会出现在哪里?
詹锟:我先解释一下,我们把数值精度,首先从FP16或者FP32、FP8和INT8这样去缩减的。
首先这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么到LLM领域,大家看到DeepSeek开始推它的FP8,为什么以前不行?也是因为模型参数规模过大,对它的容错变低了,它通过更多的层,更多的数据容量,把之前的异常值降的越来越少,这是大模型一个特性,这也是为什么到VLM、VLA领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上去靠近,这是很大一个变化。如果我们还用原来的方法,那是不太行的,它会要很高的FP32、FP16这样的数值精度,那到VLM才能做这样的事情。
另一个,量化训练。传统的训练一般都会拿FP32去做训练,所以拿出来的参数就是FP32的数值精度。那我们有一个训练过程叫QAT,就是在训练过程中,我把参数就把它变成INT8或FP8,这样的过程中,我们在模型只能用数据精度去做模型训练迭代,这样我们拿出来的模型就能适配模型的推理精度。
以往企业是很难做好的,是因为这个训练过程中会非常不稳定,这里面会有大量的训练框架优化,训练策略的优化才能做。可能我先拿FP32把模型训的收敛了,我再拿一个QAT的方式,训练成FP8这样的小数值精度。
另一个很重要的,我们还是做了大量的数据清洗。以往出现这种数据噪点还是因为有脏数据,这也是为什么刚刚说我们还是在1000万上面做,但是我们这里面做了大量的数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、变得收敛,这也是目前像大语言模型大家常规的迭代方向,把数据精度做的越来越精细,把数据清洗的越来越干净,它训练也会越来越收敛。
第一个方向是会往FP8、INT8方面做。另一个,FP4,这也是像英伟达他们这些最先进的芯片提出来的,我们能不能把算力再降1倍,原来是要8个字节才能算一个点,我们变成4个。这里面很重要一点,模型的数值参数范围一定要够小,我们训练要更加稳定,每一次数据用量对待你的模型训练迭代都是有更高的要求,目前看我们是有机会做到这里的。
如果你想做FP4,所以你要在训练上花更多精力,做更多的数据迭代、数据清洗,才能往这方面做。目前我们也在做这样的尝试,很快就可以在把Thor的芯片压榨出来。
回到Orin,由于硬件限制,确实没办法做FP8这样的计算,但是它有INT8。所以我们在Orin上,现在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐渐把大模型在Orin上部署。再往后走,由于硬件的限制,我们不能在做更多的精度压缩。但是我们会同样把VLA这样的模型体验放在Orin和Thor上同平台。
问:到2000TOPS之后,帧率能不能跑到30帧去?
詹锟:目前来看我们在绝大部分场景10Hz,特别是城市,10Hz是够用的。如果我们算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,这个我们得看情况,可能有人说特斯拉跑到30,我们了解到它也并不是完整的30Hz,它也有一些其他的方法做这样的东西。那我们还是把反应速度和体检做上来,并不是追求一个简单的数字。
问:VLA我们更多在做大脑的事情,但看感知的问题可能也不一定完全解决了,包括懂车帝这次测试可能也显示出有些问题。想问一下我们在做VLA过程中,在感知方面还做了哪些工作,以及再往后走还有什么可以做的更好?
郎咸朋:还是要继续提升技术能力,我们现在这边正好有一个专门的技术能力提升的专项,就是要提升感知,在VLA中,我们现在对感知有一个比较大的升级,能看得更远、更精细,比较典型的两个例子是我们动态物体从原来150扩到了200米纯视觉的范围,OCC通用物体检测从原来的80扩到了125,这都是目前在VLA上做的更多技术能力提升,包括数据、包括推理性能的提升才能做到,目前我们确实会在基础能力上做更多提升。
问:理想是国内VLA模型最早落地的车企,肯定也是摸着石头过河,在研发VLA过程中哪方面挑战是最大的,或者花费时间最长?在摸着石头过河肯定有很多流程或什么被验证是错的,就踩过哪些坑?从端到端切换到VLA的时候,可能不仅仅是技术路线的切换,可能整个组织架构也需要调整,理想在研发VLA组织架构进行了怎样的调整?
郎咸朋:去年端到端需要一个数据驱动流程,我们之前做得很好,到今年一定要做强化学习的流程,就必须要快速验证我们世界模型的可靠性、有效性,也需要快速搭建我们高效仿真环境。我们今年很多推理卡也需要大量的去购买、去部署等等,我觉得研发挑战最大的除了技术本身之外,是伴随技术迭代的研发流程改革。
端到端去年是180个人,今年VLA稍微多一点,200多个人,其实并不是弄几千人去做,我觉得不需要,我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。
问:后续还有很多国内友商也在跟进VLA,理想在整个研发过程中,踩过最大的坑能给大家介绍一下吗?
郎咸朋:我在之前很多会上或对外的演讲上也都提到过,你想做好人工智能必须做好你的算法、数据和算力。
我们第一个要突破的是数据问题,如果没有数据,其实你的算力、算法再好也训不出来,企业不可能空转,你必须有很好的数据。
我们一直认知还是比较好的,小坑肯定有,比如算力储备的多少,交付快点慢点等,小的工程细节、优化,肯定各家都会遇到,我觉得遇到小坑其实没有问题,但不要遇到大的判断失误,我觉得我们运气还是可以的。
詹锟:我补充一下,可能也不叫坑,是个经验,还是要相信AI的力量,就是要相信Scaling Law。可以看到开始郎博KN里面有一个,我们之前是相信data Scaling Law,其实我们看到了很好的效果,其实下一步就是现在的test times Scaling Law。当我们能给更多的数据、更大的训练时长,它总能出更好的效果,我觉得这就是一个需要坚信的或者AI界现在叫“the bitter lesson,苦涩的教训”,我们要坚信这个地方。
问:问题一:在VLA的训练中,在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令,我们是如何解决的?在后续的强化训练中,理想用一组24的案例去证明,那我们是以什么样的标准决定这个case是训练OK的?VLA在理想i8上首发,同时也是i8的核心卖点之一,如果您作为智驾的缔造者,您是怎么去看待用什么样更好的方式,去跟司机沟通,相互信任的感情也好,或者吸引顾客愿意购买,去展示我们VLA的功能
詹锟:首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。
第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。
第二,生成数据。之前会有很多大语言模型会有幻觉,本质上因为“大模型”对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至生成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。
通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。
第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。
湛逸飞:首先只有完整的走过这种闭环仿真的整个流程玩家才能真正的去做强化训练。
因为我们是在闭环仿真这个系统搭建起来的过程中积累了一套非常完整对车辆行为判断的一套系统,这套系统甚至还用了刚才提到的这些云端的32B模型,不仅是蒸馏完以后给车端用,在云端用这些大的模型去做推理、判断这个车在仿真环境里的行为是否正确,同时我们从很多的维度,包括“安全、舒适、合规、效率”等,对车辆的行为做一个评价,总体来给出一个打分,我们也叫reward,目的是告诉他这个车在仿真环境里。
问:提问一个关于数据的问题,在仿真加进来并且它发挥的作用越来越大之后,理想是怎么定义所谓的优质数据或者什么是不好的数据,是不是说对模型迭代有促进作用的数据就叫优质数据,但这个定义可能又太宽泛,理想有没有一些可以量化的衡量标准。
湛逸飞:我们需要的数据用一个词总结叫“老司机数据”。在训练过程中,对数据的筛选。从去年端到端开始一直到现在,我们在云端有很多程序,甚至是云端的大模型,对这些数据进行检查,来检查他们是否符合我们所定义的“老司机”的标准。比如他在正常行驶的时候,不可以不居中。
举一个例子,望京地区有一些右转车道上有违停车道,我们到底需不需要这个车辆可以压着实线绕行过去,如果不压着实线绕行过去,你在望京地区可能就没法完成右转。所以我们对这些数据的理解,是花费了很大的功夫,在这个基础上做了很多清洗,总量还是1000万,但实际上这里面是在进行不断替换的。
郎咸朋:我们有实验模型之后,像corner case场景以及一些困难场景的数据,我们会通过生成数据来提供。
刚才你说是不是能提升性能数据就是好数据,你刚才问了这样一个观点。从某种意义上说是,但是在端到端的时候就是这样的。但是在端到端的时候,我们的数据更多是用来训练端上的模型,但是到了强化学习之后,数据其实更大的作用是来训世界模型,让世界模型变的更加符合真实世界。
我们更多的训练数据是来自于生成数据的。因为我觉得量上来说,或者类别来说,已经足够了。但是在细分的类别上,还是需要更多的用生成数据来补充我们的训练。
各家做的也都不太一样,5年前确实理想作为一个追随者进入了自研的自动驾驶赛道,但我们对自动驾驶的思考并不是从2020年开始的,我们刚进理想的时候,当时李想面试的时候跟我聊,说你觉得最重要的是什么,比如想在自动驾驶做成功或者做到第一?
我说现在来看就是数据,虽然说别的都很重要,但数据必须要提前开始准备,我们是从理想ONE开始做数据闭环的一些工作,当然那时候数据还比较少。给大家公布一个数字,其实2021年大家也觉得我们做的挺快的,虽然一些地平线芯片的加持,有一些可能当时做的ADAS也不是特别难,但有工作量很大,那时候我们训模型的数据并不是买了个数据什么的,而是在2020年我们通过第一个完整的交付年,累计了1500万左右的有效回传数据,我们确实做了很多数据标注,样本是从这积累出来的。
从那开始慢慢往后做,这5年做下来,从去年端到端开始,业界或我们的竞争对手真正把理想自动驾驶当回事了,但他们为时已晚,因为这些能力建设不是一天两天就能完全建立起来或者达到我们效果的,今年开始做VLA,我们是第一个提出并马上是第一个交付的,很多人还在嘴上说,还在用端到端的方式去做VLA。
刚才我画了一个图想表达一个观点如果还是沿着端到端思路去做所谓VLA的话,你的速度一定会变慢,不管是1000万,还是2000万,哪怕是1个亿的Clips,首先你要训1亿个Clips需要多大的训练算力,模型得搞到多少先不说。另外,你的迭代速度会变慢。
如果你没有很好世界模型、仿真环境,这个世界模型不是部署在车端的,是在云端的,云端的世界模型真的是帮助我们算法训练的,模拟了一个真实的物理世界,我们现在是场景的生成,在结尾处我们给它秀了一段1公里×1公里的完整的区域仿真,如果再做的完善一点,我们最终的目标是让我们算法在模拟世界里跑极品飞车,像《SimCity》,是模拟的一个城市环境。我们希望在我们生存的世界里是一个完整的Agent,是智能体,有车来撞它时它会躲,有什么人走过来它会让什么的。
所以我刚才秀了一段我们3D资产,就是每一个里面的交通参与者,我们是精致到我都有他的3D模型,并且赋予他Agent的智能体,所以他在我的环境里不管是静态的东西,还是动态的东西是一个完整的、真实的物理世界的“纯仿真、纯模拟”,如果达到这种程度,我把我的车,我把我的算法在这里面,就相当于他在这个环境下跑一天等于你在真实世界里跑好几年的训练速度,那时候会非常快。
所以,我觉得VLA现在可能看起来很慢,就像去年端到端一样,其实端到端已经非常快了,从2021年我们走到端到端走了3年多时间,其实还是站在巨人的肩膀上,如果再往前走,整个行业如果从规则算法走到端到端的话,我可以说走了10年左右,但是从端到端开始迭代会非常快,因为那时候整个工程、整个数据都会成熟起来,到VLA,我认为也是这样一个速度,大家可能现在感觉VLA还没有什么感觉,就是做了一个比端到端稍微好一点的一个感受。
但一年之后你看到一个1000MPI的产品放在你面前的时候,相信大家都会觉得自动驾驶真的开来了。我相信在这里面真正有技术、真正有能力、真正有责任心的企业一定会率先跑出来,我相信理想肯定是这里面第一个会走出来的。