瞄准“干好活”,北京人形机器人重磅开源VLA大模型XR-1
创始人
2025-12-19 17:45:31

机器人存在的意义是什么?

在北京人形机器人创新中心看来,答案始终明确而坚定:机器人,最终是为了“能干活、会干活”——是为了走入工厂乃至千家万户,去完成那些重复、繁重、高危的实际任务,创造真实价值。

今天,我们离这个目标又近了一大步。

在业界目光正逐步向实用领域倾斜,大众对于机器人“干活”的呼声也日益强烈的背景下,北京人形机器人创新中心在18日的直播中,正式宣布开源其核心的具身智能跨本体视觉语言动作(VLA)大模型XR-1,推动具身智能机器人向“全自主、更好用”的目标迈进。

结合北京人形升级版大规模机器人数据集RoboMIND V2.0,以及高保真铰接物体数字资产数据集ArtVIP,我们能够发现,此次开源并非一次单纯的技术共享,而是一套旨在系统性解决机器人如何“能干活、会干活”这一核心难题的完整方案。

▍XR-1:一个能跨场景、跨本体、多任务干活的VLA模型

要让机器人像人一样灵巧、智能地完成任务,关键在于“脑”的协同。北京人形将这一体系解构为“具身大脑”与“具身小脑”。

“具身大脑”负责高层的认知、规划与决策,理解“要做什么”和“为什么做”。此前,北京人形已开源了世界模型WoW(我悟)和多模态具身通用模型Pelican-VL(天鹕),为机器人提供了理解物理世界和进行复杂任务规划的能力基础。“具身小脑”则负责将大脑的指令转化为精准、流畅、适应本体特性的动作,解决“具体怎么做”的问题。

XR-1,正是北京人形为机器人打造的“超级具身小脑”的重要组成部分。

它不是一个停留实验室中的理论模型,刚刚在由中国电子技术标准化研究院组织的、基于国家标准的“求索”具身智能测评(EIBench)中,XR-1是首个且唯一通过全部测试的VLA模型,获得了CESI-CTC-20251103具身智能测试证书权威认证。

EIBench测评的核心目标,正是直击具身智能领域数据难复用、模型泛化性差、安全难保障等产业痛点。测评覆盖取放、推拉、旋转、插入等8类核心操作动作,并从物体属性、环境光照、背景干扰等七大维度开展泛化测试。其严苛的考核标准,恰恰印证了XR-1面向“实干”场景的硬核能力。

实际应用中,XR-1在具身天工2.0人形机器人、UR、Franka等多种不同构型的机器人本体上,均表现出了高成功率和强鲁棒性。

具体来说,XR-1的性能,源于其三大技术创新。首先,它采用了独创的UVMC(多模态视动统一表征)技术,通过这项技术,可以将视觉观察、语言指令和机器人动作在统一的表征空间中进行学习,让机器人能够利用海量人类视频进行训练,降低训练成本提升训练效率;同时,它能够搭建起视觉与动作的映射桥梁,让模型能真正理解“看到什么”与“该如何动”之间的内在关联。

其次,通过“多模态预训练→跨本体主网络训练→特定场景微调”的三阶段训练范式,先积累通用操作知识,再快速适配具体任务,实现了通用性与专用性的平衡。将XR-1与目前全球最先进的具身VLA模型进行对比可见,在各种复杂任务中,XR-1的成功率显著领先。在某些高难度任务上,其表现甚至优于头部企业一倍。

最后,其性能根基来自于超百万级自有数据驱动,即北京人形积累的、超百万条的多本体机器人操作数据。基于XR-1,北京人形构建的“慧思开物”平台,能够快速生成面向物流分拣、精密装配等场景的通用技能库,大幅降低了为不同机器人开发新技能的成本和时间,打通了技术走向产业应用的关键路径。

▍RoboMIND V2.0:让VLA模型变聪明的数据基石

XR-1出色的泛化与学习能力,离不开高质量、大规模数据的喂养。本次同步开源的RoboMIND 2.0数据集,正是其能力的重要源泉。目前RoboMind数据集下载量累计已超15w次。

数据集为何对具身智能如此关键?

其实在人工智能领域的“Scaling Law(缩放定律)”已经证实,大模型性能随数据量、模型规模和计算力增加而显著提升,该法则也适用于人形机器人与具身智能领域。本次开源的RoboMIND 2.0,正是针对上述痛点的一套系统性解决方案。其核心在于“真虚结合”的双引擎数据构成,“真机采集数据”在北京人形自建的真实机器人数据基地中,由多种机器人执行海量任务采集而来,数据包含真实的物理交互反馈和视觉信息,是模型学习真实世界物理规律的“金标准”。

“虚拟仿真数据”则在仿真环境中,通过程序化或智能体自动生成的大量操作轨迹。这部分数据成本低、可规模化,能快速覆盖长尾、高危或难以在现实世界大量复现的任务场景。

而这两部分数据得以高效产生和利用,离不开一套强大的工具链。北京人形此前也发布并持续更新X-Humanoid training toolchain,它无缝衔接了RoboMIND数据格式与LeRobot等主流训练框架。开发者只需几行命令,即可完成从数据准备到模型训练的全流程,让研发重心回归算法创新本身。

▍在数字世界里复刻一个可“干活”的真实世界

RoboMIND中高质量的虚拟仿真数据从何而来?答案是ArtVIP。

这个作为被英伟达Isaac Sim 5.1全球唯二官方引用的高保真数字资产数据集,致力于在仿真环境中复刻一个物理准确、视觉真实的平行世界,也是目前已开源的全球最精细的复杂铰接物体库。

ArtVIP提供了涵盖橱柜、冰箱、笔记本电脑、脚踏式垃圾桶等数百种高精度铰接物体。这些物品不仅外观逼真,更内置了精确的物理属性(如质量、摩擦力、铰链阻尼)和符合因果的交互逻辑。在仿真中,机器人可以像在现实世界一样拉开抽屉、按下开关、打开冰箱门,其受力反馈与真实情况高度一致。

这意味着,基于ArtVIP构建的仿真场景,能够生成与真实世界几乎无异的机器人操作轨迹数据,直接用于训练像XR-1这样的模型。它极大地弥补了Sim2Real的鸿沟,让机器人在投入真实工作前,已在数字世界中经历了成千上万次的“岗前培训”。

▍从技术开源到场景落地,机器人已在“真干活”

实际上,北京人形的这一套技术方案,早已走出实验室,在多个行业场景中开始“干活”。

在福田康明斯,机器人正在学习如何更智能、更柔性化地搬运零部件箱体。在中国电科院的高压电力场景,机器人代替人工进行高危的电力设备巡检作业。在李宁运动科学实验室,机器人辅助进行运动装备的人体运动数据采集与分析。

这一切都指向同一个核心目标:让机器人技术褪去炫技的光环,回归解决实际问题的本质。通过开源XR-1、RoboMIND V2.0和ArtVIP,北京人形不仅分享了自身的技术成果,更是为整个具身智能社区提供了一套从数据、训练工具到核心模型的“干活”工具箱。

我们有理由相信,当开发者们能够更便捷地获取高质量数据、训练出能跨本体泛化的模型、并在高保真仿真中验证想法时,机器人真正融入生产生活、成为可靠“劳动者”的时代,才会加速到来。北京人形在该方向的持续聚焦,必然能够与全球开发者一道,推动具身智能迈向“全自主、更好用”的新高度。

相关内容

热门资讯

中科电气:回应管理层履职及生产... 投资者提问:中科电气公司的董事长余新,董秘张斌,总经理皮涛。公司的管理层是不是集体消失了,公司的生产...
从“缉毒”到石油 美国对委内瑞... 新华社北京12月19日电 美国在加勒比地区加大军事部署以来,从最初号称打击毒品犯罪,到如今封锁进出委...
百大集团:公司主营业务为商品零... 格隆汇12月19日|百大集团公告,经公司自查并向控股股东及实际控制人函询核实,截至2025年12月1...
以“林长制”促“林长治” 山西... 中新网太原12月19日电 (记者 范丽芳)以林长制为牵引,山西构建了防火、防虫、防盗、防猎“四位一体...
新华访谈丨姜君:未来五年致力于...   新华网哈尔滨12月19日电 “十四五”收官在即,“十五五”即将开启,在这个重要的时间节点,新华网...