新智元报道
编辑:好困 桃子
【新智元导读】
为破解机器人产业「一机一调」的开发困境,智源研究院开源了通
用「
小脑基座
」RoboBrain-X
0
。它创新地学习任务「做什么」而非「怎么动」,让一个预训练
模型无需微调,即可驱动多种不同构造的真实机器人,真正实现了零样本跨本体泛化。
在
今天举行的2025机器人学习大会(Conference on Robot Learning,CoRL)上,智源研究院干了一件大事:他们把自家研发的具身智能「
小脑基座
」——RoboBrain-X
0
,直接开源了!
智源宣称,这是一款仅通过预训练,即可实现多类真实机器人间的基础操作零样本迁移,结合小样本微调就能进一步释放其对更复杂任务跨本体泛化潜力的「通用
小脑基座
」。
在谷歌、英伟达、特斯拉等巨头和Figure AI、Physical Intelligence等明星创业公司已经把牌桌挤满的今天,智源这一手「开源王炸」,摆明了就是要告诉所有人——牌局,要重新洗了。
RoboBrain-X0
GitHub地址:
https://github.com/FlagOpen/RoboBrain-X0
多芯片版本地址FlagRelease:
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS
核心训练数据集:
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
机器人行业的「换脑难题」
如今的机器人产业,时常呈现出一种奇特的反差。
一方面,在精心编排的演示中,它们是无所不能的超级明星:可以完成后空翻、走梅花桩,表演复杂的舞蹈,甚至每一个动作都精准卡点。
另一方面,在真实、开放的环境里,哪怕是看似简单的任务,也可能出现令人意外的低级失误。
为什么会出现这种情况?
这背后正是机器人行业一个公开的秘密:驱动「身体」的「操作系统」互不相通。
不同团队拿到同一家厂商的同一款硬件,由于采用的是各自开发的算法或软件系统,最终呈现出的能力可能天差地别。
其结果是,每个团队都在重复造轮子,为每一款机器人投入大量人力去重复收集数据、训练模型、进行繁琐的适配。这种「一机一调」的模式,极大地限制了机器人智能的规模化部署,成为了制约整个产业升级的枷锁。
一个基座,N种身体,即插即用
智源此次开源的RoboBrain-X0,
「仅靠预训练即可实现零样本跨本体泛化」
,正是对上述行业难题的正面回应。
这意味着,一个未经针对性微调的预训练模型,可以直接部署在不同厂商、不同结构的真实机器人上,并表现出稳定、可靠的性能。
这背后,并非简单的模型参数堆砌,而是一系列深刻的技术洞察与架构创新。
RoboBrain-X0
源自
RoboBrain
的多模态基座能力,在
RoboBrain 2.0
数据基础上,进一步融合了真实机器人动作数据。
通过统一建模视觉、语言与动作,它实现了跨本体的泛化与适配,具备从感知到执行的一体化能力。
结合智源公开的前沿研究,我们可以窥见其三大技术支柱:
1. 核心思想:学习「做什么」,而非「怎么动」
传统机器人模型常常死记硬背特定机器人的控制信号(如关节角度、电机扭矩),导致「换壳即失灵」。
RoboBrain-X0模型学习的是任务背后的「物理本质」。当模型接收到「把桌上的苹果放进左边的篮子」这类指令时,它首先通过强大的视觉推理能力,将任务分解为一套与机器人「身体」无关的通用语义动作序列(Universal Semantic Actions)。
这个过程类似于人类大脑的思考方式——我们想的是「拿起杯子」,而不是「驱动我的肱二头肌收缩X度,同时手指弯曲Y度,施加Z牛的力」。
RoboBrain-X0通过一个「本体映射机制」(Embodiment Mapping Mechanism),将这些抽象的、通用的动作步骤,实时翻译成当前所控制的具体机器人的可执行指令,比如「先靠近苹果→抓起来→移到篮子上方→放下」,从而奠定了其跨本体泛化的理论基础。
2. 动作语义的统一与抽象化表达
RoboBrain-X0并不直接输出底层关节或电机级别的控制信号,而是在抽象层面引入了统一动作表征体系。
具体来说,模型通过大规模异构数据的训练,将各种机器人的复杂动作,都拆解成一套标准的「动作词汇表」(Unified Action Vocabulary, UAV),并通过动作tokenizer机制进行量化和编码,用类似ChatGPT处理文字的方式把动作变成一串串的token。
将末端执行器的空间运动(包括位置、姿态和夹爪状态等)有效压缩为简短的token序列,在保证表达能力的同时,实现跨本体的一致性、迁移性和高效推理,从而让模型支持混合本体数据训练
换句话说,不同机器人终于能「听懂」同样的指令了,而且因为动作被压缩成了简短的代码,计算效率大大提升,长时间的复杂任务也不会「卡壳」。
3. 分层推理框架:任务、动作与控制的解耦
RoboBrain-X0的推理与控制采用了一种分层架构。该架构将复杂的控制流分解为三层:
顶层负责解析高层任务意图,并生成结构化的子任务链;
中间将这些子任务进一步映射为标准化的 token 序列,完成从任务语义到通用动作的转换;
底层解码器结合当前机器人本体的特有参数(如运动学模型),将动作token实时翻译为精准的可执行控制指令。
这种任务、动作、控制逐层解耦的设计,不仅保障了模型卓越的跨本体迁移性和可解释性,也为模型在多种异构机器人体系上实现零样本泛化和稳定执行提供了坚实的技术基础。
简而言之,RoboBrain-X0让机器人像人一样,先想清楚要做什么,再考虑怎么做,最后才是具体怎么动,为通用机器人技术落地铺平了道路。
跨本体真机数据集全面开放
要让同一个基座适配不同机器人,数据是决定性因素。RoboBrain-X0背后的关键支撑,是一套面向真实世界的跨本体训练数据集,包含了:
视觉与语义理解数据:在视觉问答与推理的基础上,补充物体检测、轨迹生成、affordance查询与动作规划等与真实交互强相关的任务,帮助模型把「看见」转化为「可操作的理解」;
开源动作数据整合:融入如Agibot World等多场景开源动作数据,拓展任务覆盖与多域泛化能力;
本体厂商合作开源数据:与头部厂商合作采集到的覆盖多样场景的操作轨迹,强化跨本体可迁移性与工程可复现性;
自采高质量轨迹:提供「指令—动作」与「指令—子任务推理—动作」两类样本,既适配短指令执行,也支持长程任务分解、进度感知与动态决策。
这次智源也同时开源了这一数据集,对于想做多本体迁移、长时序控制或高层规划的团队,是一个很好的可比较、可复现、可扩展的起点。
硬刚π0,真实世界任务成功率翻倍
RoboBrain-X0的领先性已在仿真与真实世界测试中得到充分验证。
在权威的LIBERO仿真平台中,RoboBrain-X0的综合成功率高96.3%,在所有评测维度均超越了π0。
LIBERO仿真评测结果
更令人瞩目的是,在对多种真实机器人进行的跨本体评测中,RoboBrain-X0的总体成功率达到48.9%,是基线模型π0的近2.5倍,并在基础抓放任务中达到100%的成功率。
无论是「把卷笔刀放到订书机左边」(任务1)这种需要精确空间推理的任务,还是「将所有水果放到碗里」这类涉及多目标的操作(任务4),都表现出了RoboBrain-X0在应对真实世界复杂任务时的卓越泛化能力与稳定性。
真机评测结果
从引擎到生态,智源全面开源
智源此次选择将RoboBr
ain-X
0
这一预训练基座和相关训练数据集全面开源。
在今年7月的智源大会上,智源全面开源具身大脑RoboBrain 2.0 32B版本以及跨本体大小脑协同框架RoboOS 2.0单机版。
RoboBrain 2.0的定位是面向真实物理环境的「通用具身大脑」,32B版本凭借时空认知能力的突破,在多项权威具身智能基准上全面刷新纪录。
RoboOS 2.0作为全球首个具身智能SaaS开源框架,创新性集成MCP协议与无服务器架构,实现轻量化部署,打通智能大脑与异构本体协同通路。
这一系列发布,清晰地勾勒出智源的战略雄心:先通过一个强大的成品(RoboBrain 2.0)树立行业标杆,证明技术路线的潜力;再将实现这一切的底层核心技术「引擎」(RoboBrain-X
0
和训练数据
集)贡献给社区,将创新的权利交到每一位开发者手中。
当然,通往通用具身智能的道路依然漫长。模型的鲁棒性、长时程任务的规划能力,以及对更复杂动态环境的适应性,仍有待进一步提升。但通过开源其核心的「泛化引擎」,智源无疑为整个社区注入了强大的动能。
一个由全球开发者共同构建的、百花齐放的具身智能生态,正在加速到来。
参考资料:
https://github.com/FlagOpen/RoboBrain-X0
https://huggingface.co/datasets/BAAI/RoboBrain-X0-Dataset
https://huggingface.co/FlagRelease/RoboBrain-X0-FlagOS