独家对话光轮智能:合成数据如何破解AI“数据饥渴”|50x50
创始人
2025-05-30 18:52:03
0

来源:钛媒体

 「50个技术赛道,50家创业公司」是一档聚焦前沿科技领域创新力量的深度探索栏目。我们以全球视野扫描新兴技术趋势,每期深入一个细分技术赛道,挖掘最具颠覆潜力的创业公司。呈现技术的商业价值,展示创新者的先锋姿态。

本文为第五篇。

在人工智能飞速演进的当下,数据的价值变得愈发关键。以大模型和具身智能为代表的新一代AI系统,正逼近传统数据采集方式的极限。

MIT等机构预测,若按当前速度发展,人类生成的真实数据(尤其是高质量文本数据)将在2-8年内被消耗殆尽,到2026年可能用完互联网可用文本数据,而具身智能更是对数据呈指数的级膨胀需求,达到了EB(1EB = 1024PB)级别。

面对“数据荒”的危机,合成数据(Synthetic Data)被视为打破瓶颈的关键钥匙,也成为业界共识的解决方案。英伟达科学家 Jim Fan 曾指出,未来AI模型的训练数据,将有望由合成数据提供万亿级token支持。

合成数据(Synthetic Data)是一种模仿真实世界数据的非人工创建的数据,它是由基于生成式人工智能技术的计算算法和模拟创建而成。早在1993年,著名统计学家Donald Rubin就在论文中提出了合成数据的概念。近年来,随着ChatGPT的火爆和生成式人工智能技术的发展,合成数据概念受到越来越多的关注。

相比传统的真实数据采集方式,合成数据的优势不仅在于成本低、效率高,还包括无需标注、更强泛化性等特性。

Gartner预测,到2030年合成数据将成为AI模型的主要训练来源,市场规模预计超过86亿美元。其应用场景广泛,涵盖自动驾驶、医疗健康、金融、零售等多个领域,在提升模型性能、保护隐私、系统测试等方面发挥着重要作用。

全球科技巨头已纷纷布局:英伟达推出Omniverse Replicator生成高精度3D仿真数据,并收购合成数据公司Gretel;微软开源Synthetic Data Showcase工具,服务于医疗和金融场景;Meta则通过Llama 3自生成数据优化代码生成能力。

在国内,一批新兴合成数据企业也正在崛起。2023年,专注具身智能的合成数据公司——光轮智能应运而生。公司首创将生成式AI与仿真技术结合,用以构建大规模、可交互、高保真的训练场景,重塑自动驾驶与具身智能的数据体系。

团队成员来自英伟达、Cruise等全球领先企业,具备AI、仿真、合成数据工程化落地等多领域交叉背景。目前,已服务例如英伟达、DeepMind、Figure、银河、智元多家国际头部客户以及全球高校实验室。

值得一提的是,成立短短两年多时间,光轮智能已完成五轮融资,投资方包括北京市人工智能产业基金、经纬创投、奇绩创坛、辰韬资本等。

近期,我们对话了光轮智能技术生态负责人甘宇飞,围绕“合成数据如何驱动具身智能”和“行业技术挑战”展开深度探讨。

以下为创投家与甘宇飞对话全文,略有删减:

创投家:目前合成数据在机器人、自动驾驶等领域的使用占比如何?哪些场景会用到比较多的合成数据?

甘宇飞:在自动驾驶领域,合成数据的使用比例大约在30%至40%之间,而在具身智能领域,这一比例则高达80%至90%。

具身智能中的数据采集成本很高,需要搭建实景环境、部署机器人并进行日常维护,效率低。而合成数据可以通过仿真的方式快速构建多样化场景,成本更低、效率更高。

目前合成数据在具身智能的不同阶段,包括预训练、后训练、评测目前都有很大的数据缺口,具身智能产品研发的全生命周期都需要用到大量的合成数据。

创投家:生成式 AI 与仿真技术的结合对合成数据行业的有哪些促进作用?未来 3-5 年的技术演进方向可能是什么?

甘宇飞:AI图像生成和仿真技术各有优劣。生成式AI擅长视觉逼真度,但在空间尺度和物理约束方面缺乏精确控制;仿真技术则强调物理一致性,但在真实感和生成效率上逊色一些。

将两者融合,是我们认为最具前景的发展方向。例如,神经渲染技术正逐步成熟,它结合AI视觉生成与仿真建模能力,能够直接输出具备真实感和物理精度的3D场景与资产。

此外,未来的合成数据应当更“真实”,更“极端”,更“高效”——能模拟现实中罕见却关键的长尾事件,帮助AI模型提升鲁棒性。

创投家:为什么纯AI生成的合成数据不可行?

甘宇飞:因为纯AI生成数据可能会让模型“自我循环崩溃”。这在早期研究中就已被证实,比如GPT会在多轮纯合成训练下崩溃、自动驾驶模型在纯合成数据训练后会采取危险而积极的驾驶风格。当模型用自身生成的数据不断训练自己时,误差会逐步放大,数据分布也会偏离现实,最终导致模型性能下降甚至崩溃。

要想保持模型的稳定性与现实对齐,必须引入人类示范或真实世界的“锚点”,让AI理解世界的本质。这是合成数据构建中不可缺少的一环。比如特斯拉会利用五星司机的数据迭代自驾算法,ChatGPT会找各个领域专家来做RLHF(人类反馈强化学习),而在具身领域,光轮使用人类专家的示范动作来作为合成数据的来源。

创投家:合成数据的 “真实性” 如何量化评估?当前行业在视觉 - 物理一致性等方面的技术难度和挑战是什么?

甘宇飞:我们将真实性评估分为三层:

首先是量化检查,通过自动化工具逐项检测物体属性是否符合真实世界,例如瓶子的颜色、重量、材质、贴纸、旋盖方向等。

其次是主观判别,借助判别模型评估合成数据是否足够逼真,目标是让模型“分不清”真假。

最后是效用验证,最核心的一步是实战验证,看合成数据是否真正提升了模型效果。例如在长尾场景中的识别准确率是否提升,是否有效支持客户业务目标。

创投家:具身领域的合成数据相比自驾领域的合成数据有什么不同的地方?

甘宇飞:具身智能是更复杂的“多任务交互系统”,其对数据的需求远超自动驾驶。

主要体现在四个方面:

首先是数据量级更大,自动驾驶数据为PB级,而具身智能则需要EB级数据。例如在家务场景中,机器人需处理叠被、洗碗、开门等复杂交互,任务维度和场景复杂度远高于自动驾驶。

其次是交互维度更丰富,尤其是物理交互,自动驾驶追求“无交互”,即尽量避免碰撞。而具身智能必须主动与世界互动,例如抓取易碎玻璃或柔软衣物,这对合成数据的物理属性要求极高。

然后是适配难度更大,自动驾驶车辆相对标准化,而具身机器人千姿百态,从人形机器人到机械臂,形态与关节结构各异,数据生成必须因机而异。

最后是数据积累的阶段不同,不同于自动驾驶,具身智能仍处于起步阶段,尚未形成大规模真实数据积累,因此合成数据在这一阶段扮演着更关键的角色。

创投家:具身场景中真实数据与合成数据的最佳实践占比分别是多少?实际提升效果如何?

甘宇飞:根据我们的实践经验与行业研究,当前真实数据与合成数据的最佳组合比例大致为 1:10,当然,这一比例也会根据具体应用场景而动态调整。

更重要的是,在引入合成数据后,模型性能通常能实现显著提升。比如在物体检测、交互识别等任务中,合成数据的加入可带来平均30%左右的性能增益。这不仅体现在精度上,更体现在模型对复杂环境的泛化能力上。

简而言之,合成数据正在成为构建高效具身智能模型的关键加速器。

创投家:行业里面有纯真实和纯合成的路线之争,你们如何看待?

甘宇飞:在真实项目中,其实并不存在所谓的“路线之争”——效果优先,永远是技术决策的第一准则

实践中,混合使用真实与合成数据已被证明是最优解。例如在英伟达最新开源的人形机器人基座模型 GR00T N1 中,采用“混合训练”(co-training)的策略,其性能明显优于纯真实或纯合成方案。其中光轮为此提供了大量合成数据资产,我们也将持续为其后续 Nx 系列模型提供数据支持,并与行业共享我们的经验。

真正能落地的方案,往往都是多种技术手段协同演进的结果。在光轮,我们采用的是“混合训练策略”——根据模型训练阶段和任务需求灵活调整真实与合成数据比例,实现效率与效果的最佳平衡。

创投家:相对于其他的提供数据解决方案的企业,光轮智能在技术上的差异化优势是什么?

甘宇飞:我们坚持从“物理真实感”出发打造合成数据。高精度物理仿真能力是光轮的核心优势。我们提供的数字资产具备重量、质地、触感、逻辑交互等物理属性,能够真实还原机器人在现实中的动作反馈。

其次,强调人类示范数据的价值。只有让模型看到人类如何完成任务,它才能更深刻地理解意图、策略和行为逻辑,从而构建更强的认知能力。

为了提升数据的使用效率和模型的效果,我们认为还应该高度重视数据的泛化性。通过对仿真环境中的多维度控制,我们能主动生成覆盖不同情境、角度和复杂度的任务数据,从而解决具身智能中的“real2real gap”问题,也就是“真实世界中数据之间的鸿沟”。

创投家:目前光轮智能的主要客户群体是哪些?能否分享 1-2 个典型案例。

甘宇飞:我们的客户包括众多国内外顶级机构,如英伟达、DeepMind、Figure AI 以及多家一流高校实验室。

例如,在英伟达开源人形机器人模型 GR00T N1 项目中,我们为其提供了全套合成数据支持,包括遥操作行为数据、仿真场景与交互资产,帮助其在复杂物理交互任务中的模型训练。

在国内,我们为智元提供了具备高保真物理属性的仿真资产,智元在此基础上构建并发布了公开数据集 Agibot Digital World,为行业提供了高质量的具身智能训练资源。

其他客户还包括字节跳动、银河等,只要需要使用高质量物理交互数据的公司基本上都是我们的客户。

创投家:光轮最近在对外场合强调real2real gap,这是什么意思,怎么理解?

甘宇飞:在和客户实际合作中我们发现,很多时候场景之间的分布差异即real2real gap很大,而这点是经常不被重视的。

我们认为需要考虑到数据之间的real2real gap,这点在真实数据中很难通过靠摆拍采集来解决,最好的办法就是利用仿真技术,快速泛化场景从而通过合成数据解决这一问题。结合数据生产效率、数据泛化性等维度看,当下合成数据就是具身智能的最优选择。

创投家:目前光轮智能的仿真资产和场景覆盖到了哪些场景?哪些场景是客户比较关注的?

甘宇飞:我们的仿真场景涵盖了居家、商超、工业、实验室、农业、水域等多个场景,且注重地域多样性的还原。

以居家场景为例,国内厨房通常面积较小、家电紧凑,而海外家庭厨房则宽敞、设备种类多样(如双开门冰箱、咖啡机、旋钮式微波炉等)。

这种高度定制化的仿真能力,使我们在跨国公司和不同地区的客户中获得了良好口碑。

创投家:目前仿真合成数据领域还有哪些挑战是亟待解决的?你们目前进展如何?

甘宇飞:目前最大的挑战,是整个行业仍处在早期发展阶段,尤其在数据标准化与关键技术攻坚方面。

首先,数据标准的缺失限制了行业协同效率。光轮基于多年业务积累,制定并推广了一套标准数据格式,正在被越来越多客户采纳。

其次是技术层面,柔体仿真与触觉仿真是目前重点攻坚方向。例如,机器人在叠衣服或穿针引线这类细致任务中,对柔性物体的模拟与触觉反馈提出极高要求。这不仅涉及到软件仿真,还需要硬件协同。

目前我们已在这两个方向持续投入,力求在真实还原复杂交互场景的同时,提升模型训练的上限与稳定性。

(本文首发于钛媒体App,作者|郭虹妘,编辑|陶天宇)

特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。

相关内容

热门资讯

端午小长假 体育活动热商圈 5月31日,市民在活动现场参加大众旱地冰壶挑战赛。 端午节当日,2025年宁夏“体育赛事进景区...
工业和信息化部发文 推动算力互... 转自:光明网  光明日报北京5月31日电(记者刘坤)工业和信息化部日前印发《算力互联互通行动计划》,...
“一起说说心里话” “以前送快递路上,心里头像压着块石头,又累又憋闷。今天听老师解读《世界上最神奇的24堂课》这本书才发...
海南景区名录“有进有出”推动旅... 本报讯(记者赖书闻)日前,记者从海南省旅游和文化广电体育厅了解到,随着近年来旅游市场迭代更新,海南以...
高居榜首 田径亚锦赛中国队19...   北京时间5月31日,2025年亚洲田径锦标赛在韩国龟尾落下帷幕。中国队以19金9银4铜,总计32...
诋毁本身就是一种仰望 卢伟冰谈... 5月31日晚间,小米卢伟冰发文称:“不论是SU7的卖爆,还是YU7获得比SU7更高的关注和期待,都是...
中央第二生态环境保护督察组向内... 转自:内蒙古日报5月31日,中央第二生态环境保护督察组向内蒙古自治区交办第三批信访举报件30件(重点...
自治区多部门联合举办“六一”主... 转自:内蒙古日报本报5月31日讯  (记者  赵曦 实习生  任艺佳)“六一”国际儿童节即将到来之际...
粽香飘北疆 同心话传承 转自:内蒙古日报龙舟竞渡,粽叶飘香。在中国传统节日端午节到来之际,全区各地举办丰富多彩的主题活动,让...
成都快递包装有“加法”有“减法... 转自:成都日报锦观快递业新规今起实施成都快递包装有“加法”有“减法” 6月1日起,修订后的我国...
上海:小猪佩奇快闪申城欢庆儿童... 转自:内蒙古日报5月31日拍摄的“欢乐号”列车造型装饰。当日,“小猪佩奇中国环游记”主题快闪活动在上...
千名少年 以“奔跑”之姿赴世运... 转自:成都日报锦观千名少年 以“奔跑”之姿赴世运之约 5月31日,2025年全国“奔跑吧·少年...
成都已集聚航空航天企业1500... 转自:成都日报锦观成都已集聚航空航天企业1500余家 本报讯 (成都日报锦观新闻记者 黄雪松)...
来自2700公里外 成都舰的深... 转自:成都日报锦观来自2700公里外成都舰的深蓝寄语 ■“战舰的每一次破浪前行,靠的不仅是勇气...
数字化带来更多美的打开方式 转自:成都日报锦观数字化带来更多美的打开方式 《舞动敦煌》以舞蹈激活静态文物。 “近年来...
在澳门感受端午节的“速度”与“... 转自:内蒙古日报□新华社记者  齐菲  刘刚  桨叶翻飞,白浪四起,龙舟疾驰……31日端午节,澳门南...
贾乃亮和甜馨过端午节,父女合照... 5月31日端午节,贾乃亮在微博晒出与女儿甜馨的合照,并配文询问粉丝两人吃的是甜粽还是咸粽。照片中,父...
中方回应美防长涉华消极言论:勿... 6月1日,外交部发言人就美国防长赫格塞思在香格里拉对话会上涉华消极言论答记者问。问:据报道,5月31...
罗家英自曝:仅剩9年寿命! 据中新文娱消息:知名男演员罗家英日前表示,他第4次患癌,最多剩下9年寿命。罗家英坦言,不会做化疗和电...
这里是青海这里是西宁 本版图片均由黎晓刚 海龙 摄“今年的西宁太耀眼了!”“灯光绚丽夺目、文创产品精致美观、节目精彩纷呈,...