宇树开源多模态视觉语言大模型UnifoLM-VLA-0
创始人
2026-01-30 12:19:10

1月29日,机器人公司宇树科技宣布开源其视觉-语言-动作(VLA)大模型 UnifoLM-VLA-0。该模型旨在解决传统视觉语言大模型(VLM)在物理交互中的局限,通过针对性的预训练,使之从图文理解能力进化成具备物理常识的“具身大脑”。

据官方介绍,UnifoLM-VLA-0 是 UnifoLM 系列下专门面向通用人形机器人操作的模型。其基于开源的 Qwen2.5-VL-7B 模型构建,使用了覆盖通用与机器人场景的多任务数据集进行持续预训练,以提升模型对几何空间与语义逻辑的对齐能力。

模型的核心突破在于针对操作任务的高要求,深度融合了文本指令与2D/3D空间细节,并构建了全链路动力学预测数据以增强任务泛化性。特别地,宇树在模型架构上集成了动作预测头,并对开源数据集进行了系统化清洗,最终仅利用约340小时的真机数据,结合动作分块预测与动力学约束,实现了对复杂动作序列的统一建模与长时序规划。

评估结果显示,该模型在多个空间理解基准上的能力较基础模型有显著提升,并在“no thinking”模式下可比肩 Gemini-Robotics-ER 1.5。在 LIBERO 仿真基准测试中,其多任务模型也取得了接近最优的性能。

在真机验证环节,UnifoLM-VLA-0 在宇树 G1 人形机器人平台上,仅凭单一策略网络即可高质量完成开闭抽屉、插拔插头、抓取放置等12类复杂的操作任务。官方称,即使在外部扰动条件下,模型也表现出良好的执行鲁棒性与抗干扰能力。

目前,该模型的项目主页与开源代码已在 GitHub 平台公布,供开发者与研究人员获取。

【来源:凤凰网科技】

相关内容

热门资讯

流花溪航线短萼仪花走红 像羊蹄甲一样高大挺拔,像苦楝花一样清新浪漫……5月下旬,流花溪畔的网红树种——短萼仪花吸引了不少市民...
AI“炼化同事”,为何一石激起... 最近,一家公司把一位离职员工的聊天记录、工作文档等投喂给AI,训练出一个能模仿其风格的数字分身继续工...
“韬定律”将如何影响半导体产业... 当指导全球半导体产业发展“摩尔定律”逐渐失效后,在先进光刻技术获取受限且不太经济的大背景下,华为提出...
吉林省最新或2023(历届)预... 20日,吉林省启动高校应届毕业生入伍预征工作,今年全国预征人数为15万人,预征人数力争达到应届毕业男...