小米机器人开源VLA模型Xiaomi-Robotics-0
创始人
2026-02-13 08:18:23

2月12日,小米雷军通过微博披露,小米机器人团队正式开源Xiaomi-Robotics-0,一个47亿参数的具身智能VLA模型。该模型采用Mixture-of-Transformers混合架构,在LIBERO、CALVIN和SimplerEnv三大仿真测试集的所有Benchmark中,与30个对比模型相比均取得当前最优成绩。

图片来源:小米技术

Xiaomi-Robotics-0的核心在于通过MoT架构将视觉语言大模型与多层Diffusion Transformer解耦。VLM负责处理模糊指令与空间关系认知,DiT则通过流匹配生成高频、连续的Action Chunk。这种设计让模型在消费级显卡上即可完成实时推理,解决了现有VLA模型因推理延迟导致真机“动作断层”的共性痛点。

模型架构及训练方法:(a) VLM多模态与动作混合预训练;(b) DiT专项预训练;(c) 目标任务后训练;图片来源:小米技术

训练策略分为两个阶段。跨模态预训练阶段引入Action Proposal机制,强制VLM在图像理解的同时预测多模态动作分布,完成特征空间与动作空间的对齐;随后冻结VLM,专项训练DiT从噪声中恢复精准动作序列。后训练阶段的核心是异步推理模式,使模型推理与机器人运行脱离同步约束。同时,Clean Action Prefix通过引入上一时刻动作输入来保证轨迹连续性,Λ-shape Attention Mask则强制模型优先响应当前视觉反馈,提升面对环境扰动时的反应敏捷性。

在真机部署测试中,搭载该模型的双臂机器人在积木拆解、叠毛巾等长时序、高自由度任务中展现出稳定的手眼协调能力,同时保留了VLM原有的物体检测与视觉问答能力。项目代码、模型权重与技术文档目前已同步上线GitHub和Hugging Face。

相关内容

热门资讯

小学生版《左手指月》为何爆火,... 广东阳江龙源交椅山学校,演唱《左手指月》的学生穿校服参加“六一”晚会彩排。校方供图 一段无耳返、无修...
中信建投:算力板块为何波动加剧... 智通财经APP获悉,中信建投发布研报称,近两周算力板块主升但波动加大,监管加强、资金止盈及美韩AI产...
优秀历史建筑,如何装下全龄友好... 一座优秀的历史建筑,除了光阴沉淀的美,如何“活在当下”? 近日,澎湃新闻记者探访上海部分优秀历史建筑...
德国留学|如何快速交到外国朋友... 很多刚来德国的新生,都有一个共同困扰: 身处多国留学生圈子,想拓宽社交圈、练口语、了解不同文化,却不...
原创 解... 前几天,官方发布了一组陆航部队夜间训练的照片。标题很有画面感——“夜幕沉沉、铁翼飞旋”。说的是第71...