专访光轮智能总裁杨海波:为什么具身智能需要仿真数据
创始人
2026-01-15 22:34:44

转自:贝壳财经

1月以来,先后在北京AI“新春第一会”和智源研究院“2026十大技术趋势”发布会上携最新成果亮相,光轮智能联合创始人、总裁杨海波“很忙”。

忙碌的背后,是2025年具身智能赛道爆发式增长,但训练数据短缺的现状。在这一背景下,2023年成立的光轮智能以具身智能背后“卖水人”的身份脱颖而出,其专注的AI仿真合成数据服务精准填补了这一市场缺口。目前,超过80%的国际主流具身智能团队的仿真资产与合成数据来源于光轮智能,世界模型团队与多模态模型团队也是他们的客户。

2026年1月的一个晚上,杨海波接受了新京报贝壳财经记者的专访。之所以选择在晚上,是因为创业近三年来,他始终保持高强度、多线程的工作节奏:每天清晨集中处理来自全球团队的大量信息,他称之为“清圈”(即清理未回复的微信信息),之后持续跟进重点事项进展,并与客户、政府和投资机构进行密集沟通,日均安排4至5场会议。

杨海波向记者坦言,光轮智能成立初期主要面向自动驾驶领域,但具身智能火爆后,其数据需求量至少是自动驾驶的1000倍。在他看来,只有AI仿真数据才能提供具身智能企业们渴求的“规模化数据”,“未来机器人和智能体会像今天的手机、汽车一样,广泛应用于各个行业和城市角落,背后必然需要可靠的数据支撑,而这种支撑依赖于基于仿真的科学能力。”

以下为贝壳财经记者与杨海波的对话。

光轮智能联合创始人、总裁杨海波。会议主办方供图

为什么具身智能卡在数据上?仿真正在成为破局关键

新京报贝壳财经:AI仿真合成数据这一赛道,是光轮智能在2023年成立之初就已经明确瞄准的,还是随着近年来多模态等技术突破逐步拓展出的新业务方向?

杨海波:客观来说,公司从成立第一天起就明确聚焦于仿真合成数据赛道。我们的关注重点并不在于某一种具体的机器人形态,而在于物理AI所必需的数据基础设施建设。当时我们观察到,大语言模型的发展得益于互联网长期积累的大规模文本语料,而物理世界所需的三维与物理数据几乎处于空白状态,这为合成数据提供了重要的发展机遇。

AI要真正进入物理世界,无论是机器人、自动驾驶,还是各类自动化设备,都必须依赖可规模化、可持续、可跨场景的数据供给体系。然而,真实世界数据在获取过程中普遍面临成本高、效率低以及部分场景存在安全风险等问题,难以支撑大规模训练需求。正是由于真实世界试错成本高、周期长且风险较大,仿真合成成为唯一能够承载规模化试错和训练的技术路径。因此,仿真并非事后跟随行业趋势的选择,而是公司自成立之初便确立的核心技术方向。

尽管近年来多模态能力的提升显著改善了仿真的效率、真实度和视觉表现,但在物理层面,受力、接触、形变、材质以及摩擦等关键要素,仍然必须通过高精度仿真来实现。仿真的核心难点并不在于画面是否逼真,而在于力学层面的物理准确性及其在实际训练中的可用性,这也是其与传统仿真或纯视觉模拟的本质区别。

新京报贝壳财经:合成数据与仿真领域的整体市场格局如何?目前这一市场是否仍处于蓝海阶段?

杨海波:2023年创业之初,关注合成数据的公司并不多,当时行业还在讨论“要不要用合成数据”。现在,所有具身智能和物理AI团队都认可合成数据的重要性,行业讨论的焦点变成了“怎么做好合成数据”。

我们进入行业早、技术积累深,判断合成数据做得好与坏,核心验证标准是客户选择。目前全球前三的世界模型团队都在使用我们的仿真和数据服务,超过80%的头部具身智能团队的仿真资产和数据都来源于我们,市场用实际选择证明了我们的实力。

新京报贝壳财经:具身智能行业火爆后,贵公司所接收到的需求与成立初期相比增长了多少?

杨海波:公司初期客户多集中在自动驾驶等领域,2024年下半年,世界模型和具身智能的需求开始显现。最近,具身智能和世界模型领域呈现爆发式增长。具身智能的大脑模型底层源于世界模型,我们更愿意将其理解为物理AI在物理世界落地的重要载体。

具身智能的数据需求量至少是自动驾驶的1000倍。主要有两个原因:第一,自动驾驶本质是“防碰撞的视觉游戏”,没有复杂物理交互,而具身智能需要与世界深度交互,比如开冰箱门时感受磁吸阻尼的力,多了物理交互维度;第二,自动驾驶有现成的数据回传和处理体系,而具身智能处于从零开始的阶段,没有现成数据供给;还有一个更直观的理解,具身智能要替代千行百业,应用场景远比自动驾驶广泛,数据需求量自然大幅增加。

新京报贝壳财经:请问贵公司的定价是主要依据定制化程度、成本投入,还是最终效果?例如线缆仿真这类难度较高的场景,是否按照训练成本进行定价?

杨海波:合成数据的定价主要按小时计价,但具体价格会根据场景难度、任务复杂度、训练规模调整,不是单纯的成本定价法,更多结合难度和市场情况。我们希望定价方式清晰透明,因为客户会将仿真和评测能力纳入长期研发规划,我们提供的不只是数据文件,更是持续提升的研发能力。值得一提的是,高质量数据极其稀缺,一旦解决了客户“有无”的核心问题,价格就不再是关键,乙方也将具备更强的定价能力。

让机器人感受到真实世界,训练仿真数据到底难在哪

新京报贝壳财经:对于稀缺且技术难度较高的数据类型,其训练过程中的主要难点体现在哪些方面?

杨海波:训练过程的核心挑战在于如何产出高质量数据,主要体现在两个方面:第一,数据底层质量要真正对齐物理世界。合成数据在实际应用中需要与真实数据直接竞争,而物理交互的真实性是其中的关键,这一点就挡住了绝大多数参与者。第二,具身模型的演进会不断改变对数据的需求规范,这意味着数据提供方必须具备很好的算法理解能力,从模型和算法的角度去理解数据需求,而不仅仅停留在传统的数据生产或运营层面。这就要求我们既要有数据能力,也要有算法能力。

做好合成数据需要两项核心能力:一是确保数据的高质量,需要长期的底层技术开发能力,同时要与头部客户共创,在0到1的阶段将仿真与真实世界的误差压到最小,我们服务了行业最头部的客户,积累了大量宝贵经验;二是规模化供给能力,要能稳定、持续生成跨本体、跨任务的大规模高质量数据,不能只追求质量而忽视规模,合成数据的真正门槛在于质量和规模的兼顾,这是我们多年服务头部客户后形成的行业认知。

新京报贝壳财经:光轮智能拥有多种类型的仿真数据,涵盖医疗场景中的脏器、农业场景中的采摘任务以及工业场景中的线缆操作等。你们是如何实现仿真数据与真实数据高度一致的?其中有哪些关键方法或技术路径?

杨海波:真实世界重复训练确实在成本、安全性和效率方面存在问题。为此,我们采用了全栈自研的“求解—测量—生成”三位一体的仿真技术路线。以线缆插拔为例,这是工业级的难题,传统仿真仅将线缆视为简单曲线、插头视为简单碰撞检测,而我们会在自动化测量工厂中,精准测量线缆的弯曲刚度、扭曲特性、重量分布,以及插拔过程中的阻力曲线、拔出所需力度、不同角度的卡位点、接触点摩擦系数等真实物理参数。

难点主要有三个:一是计算复杂度高,线缆不像刚体有固定形状,它是连续体,理论上有无限个自由度。要准确模拟,需要把它离散成上千个节点,每个节点都和周围节点相互作用,这意味着要实时求解上万个耦合的非线性方程。传统方法要么算不准,要么算得慢;二是多物理场耦合,线缆插拔不是单一物理现象,线缆本身是柔性体,涉及大变形弹性力学,插头是刚体,涉及精密接触力学;插拔过程有摩擦、有卡位、有形变。把这些不同的物理场统一求解,还要保证实时性,这是世界级难题;三是稳定性和精度的平衡,提高精度会导致计算量指数级增长,过度追求速度则会简化参数,导致过程失真。

针对上述问题,我们自研了GPU物理求解器,通过GPU并行加速,找到了物理精度和实时计算的平衡点,既能呈现线缆完整的物理状态,又能在毫秒内完成计算。凭借这些技术,我们能规模化生成真实场景,让机器人在虚拟环境中真实感受物理反馈,比如插头插歪时的卡阻、插到位时的卡顿感,这些都是机器人训练迫切需要的。相比之下,传统仿真更接近于动画演示,无法实现有效交互。而我们所构建的是物理级仿真体系,每一帧背后都有上万方程支撑,确保虚拟到现实的真实性。

新京报贝壳财经:在当前数据规模不断扩大的背景下,机器人公司在模型训练过程中,是否可以完全使用仿真数据?

杨海波:具身智能的发展需要规模化的本体数据供给,而仿真合成数据是唯一能满足这一需求的解法。在物理AI体系中,仿真数据并非对真实数据的补充,而是训练体系的基础。

总结来说,真实数据负责对齐现实世界,仿真数据负责模型成长,预训练、强化学习、评测都高度依赖仿真数据,这已成为行业的普遍实践。从供给规模上看,仿真数据的供给量能比真机数据跨2到3个数量级,两者完全没有可比性。

新京报贝壳财经:机器人如果依赖仿真数据训练,会不会学到数据中的bug?比如数据存在偏差,或者被黑客植入恶意指令,导致机器人在现实中出现误判,这一风险是否真实存在?又该如何应对?

杨海波:这其实就是行业所说的“仿真与真实之间的差异”,是整个行业面临的挑战,风险确实真实存在。比如仿真中摩擦力参数预估偏大,机器人可能会用更小的力抓取物体,导致在真实世界中抓不起来。

我们的应对方式主要有三点:从源头保证数据真实性,别人的仿真参数多基于假设,而我们会通过实际测量获取不同材质、不同温度下的物理参数,确保测量误差在1%以内,从源头减少系统性偏差;在训练时引入对抗性扰动,比如随机增减20%的物理参数,让模型学会应对不确定性,这样机器人学会的是“原理”,而不是死记硬背;与头部客户持续迭代,客户的真实测试结果就像“体检报告”,能帮助我们及时发现并修正问题。

仿真不是100%替代真实数据,而是“仿真为主、真实为辅”的方案,99%的训练用仿真数据完成,剩下1%用真实数据微调,既保证效率又确保安全,就像飞机驾驶培训,先通过仿真模拟训练,再结合实际飞行练习,仿真的核心是高效逼近真实,而非替代真实。

当机器人走向规模化,仿真数据正在成为底层能力

新京报贝壳财经:如果未来出现实力相当的竞争对手,贵公司更高层面的追求是持续研发更复杂的应用场景,还是进一步逼近真实世界的物理精度?

杨海波:核心是多样复杂场景的生成能力,因为我们本质上是构建一个可被学习的物理世界。这需要三个层面的努力:首先是在资产层面实现“看得见和摸得实”,让零部件、工具等在视觉和物理上都足够真实,比如不同材质的夹爪、不同硬度物体的力反馈都要精准;其次是在场景层面实现高度还原,要构建工厂、仓储、家居等复杂环境,应对动态变化、光照遮挡等情况,比如窗帘开关带来的光照变化都要真实模拟;最后是在任务层面不断丰富,要设计装配公差控制、异常情况处理、长程任务多步规划等多样化任务。面对竞争,本质是要在更多样的场景下实现更高精度的物理交互,提升场景自由度、接触复杂度和稳定性要求。人形机器人的难点不在于外形,而在于全身物理协同,这需要依赖复杂多样的物理信息才能实现。

新京报贝壳财经:您如何看待光轮智能自身的发展前景,以及整个行业的长期走向?

杨海波:用一句话定义光轮智能,就是“基于仿真技术打造物理 AI 时代的数据基础设施”。未来机器人产业规模化落地,最缺的不是概念,而是可训练、可验证、可复现的数据体系,谁能将仿真和数据做成基础设施,谁就能真正支撑物理AI的落地,这是我们的定位。

技术层面,我们会持续深耕全栈自研仿真,从自动化物理测量、物理属性库、高精度物理解算器,到场景和任务的“真实到仿真”生成能力,不断完善技术平台。行业层面,物理AI一定会从工具阶段走向基础产业阶段,未来机器人和智能体会像今天的手机、汽车一样,广泛应用于各个行业和城市角落,背后必然需要可靠的数据支撑,而这种支撑依赖于基于仿真的科学能力。我们希望光轮智能不仅能成为一家成功的企业,还能在中国物理AI赛道的长期竞争中,贡献一套可复用、可持续演进的基于仿真的底座能力,这是我们的使命。

新京报贝壳财经记者 罗亦丹 实习生 郭雯华

编辑 王进雨

校对 柳宝庆

相关内容

热门资讯

再难见你一袭红衣策马扬鞭我泪流... 【#再难见你一袭红衣策马扬鞭我泪流满面#】 2026年元旦,“网红女县长”#贺娇龙# 账号发布了一条...
扎哈罗娃:俄致力于在能源等多个... △扎哈罗娃(资料图)当地时间1月15日,俄罗斯外交部发言人扎哈罗娃在当日的简报会上回答总台报道员有关...
牢牢守住不“爆雷”底线!金融监... 中小机构化险连续三年位列年度工作首位。金融监管总局在1月15日召开的2026年监管工作会议上,统筹安...
美国法院为海上风电建设扫清道路   在多个州推动提高可靠性的背景下,一名联邦法官允许一个关键项目恢复工作,这将使Dominion E...
捕捉率真自然的生命感受 转自:贵州日报 《蓝色哲罗河》是作家老藤首部儿童文学作品。他把长期生态书写淬炼出的生态思索融进...