2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源_知识

2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源

创始人

2026-03-31 13:37:51

一凡发自凹非寺

量子位 | 公众号 QbitAI

什么在限制空间智能落地？

从自动驾驶到具身智能，行业对此的共识是：数据。

因为数据不够，模型泛化能力就弱，只能靠硬件来凑。

这在机器人身上体现得尤为明显。机器人要感知空间，常用的硬件是RGB-D相机，它既能看懂RGB图像，又能感知深度，从而获取到三维立体信息，让机器人理解物理世界。

但问题是，机器人的这双眼并不靠谱，遇到镜子、电梯、玻璃门等透明物体或者反光表面，RGB-D相机就容易失效，导致机器人感知异常。

这些场景绕不开，躲不掉，都是机器人走进千家万户，一定会碰到的问题，必须要解决。但因为缺少数据底座，行业过去的解决方式一般是靠堆硬件，补短板，强化感知能力。

这种局面即将迎来改变。因为就在刚刚，具身智能的基建玩家出手，对症下药，推出了一个开源数据基座。基于这个基座训练的模型，都已经实现SOTA了。

空间智能卡在哪儿了？

空间智能给了机器人一双眼睛和小脑，机器人靠它才能实现感知、规划、导航和精细操作。

比如说机器人需要拿起面前的杯子，它不光要看懂这是杯子，还需要知道杯子离自己有多远、边界在哪儿。

问题是，实现空间智能并不容易，需要依靠大规模、高质量的数据。互联网上已有的海量RGB图像，规模确实大但不符合要求，因为它只能“喂”给AI二维信息，AI很难从中生长出三维空间的理解能力。

所以行业这些年一直在给AI补空间理解这门课，路线也不少，有RGB-D相机、激光雷达和3D重建等方法。

其中RGB-D相机路线一直都很受欢迎，因为它就像给AI开了“第三只眼”，不光能测长和宽，还能测量距离，而且不需要复杂后处理，可以实时感知环境。

但RGB-D路线也有不足，主要有两个问题。首先第一个问题是，采集任务本身比较困难，不是说简单地举个相机，找个机位，“咔嚓”一拍就完事儿。不仅需要检查左右图像一致性，还要对RGB图像和深度信息进行时空同步，以及处理不同硬件之间的差异。

这还不算完，获取到RGB-D数据后，第二个问题接着就来了，研究者会发现其实RGB-D相机有时候很不靠谱，碰到玻璃、镜面、金属反光材质和白墙这种低纹理表面就容易失效。

还是以机器人拿杯子为例，咱们日常生活看到的杯子一般都长这样：

而在RGB-D相机的深度传感器下，杯子be like酱婶儿：

在机器人的视角里，两个杯子直接连成了一块，根本难以分辨，也自然无法准确拿取。RGB-D相机的不稳定，进一步导致了高质量RGB-D数据的缺失。

蚂蚁灵波开源空间智能数据基建

为了缓解行业的数据痛点，蚂蚁灵波最近开源了LingBot-Depth-Dataset数据集，其总体规模达到2.71TB，包含300万对标注RGB-D数据，每一对样本都包含一张RGB图像、传感器原始深度图和真值深度图。

其中大部分都是真实数据，大约有200万对，140万对是由多台RGB-D相机采集自真实室内场景的数据RobbyReal（如下图所示），以及58万对由机器人在VLA任务中采集的数据RobbyVla。

这些真实数据的来源非常广泛，包括住宅、教室、博物馆、商店、医院、健身房和电梯等各种生活场景，数据来源丰富，作为训练底座时就能增强模型的泛化性。

此外还有约100万对由双相机视角渲染生成的合成数据RobbySim。

其余部分都是RobbySimVal，含有3.8万条数据，作为仿真数据的验证集。这种虚实融合采集数据的方式，既能覆盖一些边缘场景，也能降低数据采集成本。

规模大、场景丰富，只是数据集可以被行业广泛使用的必要条件，但还不是全部。

LingBot-Depth-Dataset还有一个值得关注的地方在于数据分布的多样性，它在构建时使用Orbbec 335、335L，RealSense D405、D415、D435、D455这6款主流深度相机进行采集，不同相机在成像特性、噪声模式、深度精度上各有差异，使得数据集天然覆盖了多种传感器分布，为下游研究和模型训练提供了更丰富的数据基础。

这意味着这座数据金矿，可以被更多研发团队挖掘，成为空间智能的数据基建。

打造具身智能的“大脑平台”

蚂蚁灵波开源的这套数据基建，缓解了开源社区缺乏真实场景拍摄数据的问题，不仅量大管饱，而且战绩可查。

今年年初，蚂蚁灵波发布了LingBot-Depth模型，LingBot-Depth主要基于LingBot-Depth-Dataset数据集训练，在多项权威深度补全基准测试如iBims、NYUv2和DIODE上实现了SOTA。

而当LingBot-Depth部署到真实环境后，可以驱动机器人稳健抓取透明和反光物体，这在以往可以说是天方夜谭的事情。

随后，蚂蚁灵波又紧接着开源了LingBot-VLA，打通视觉、语言和动作，驱动机器人做出决策。

紧随其后开源的LingBot-World，则为模型提供了仿真训练场。

当时压轴登场的LingBot-VA，则率先让世界模型直接驱动机器人动作，实现了“边推演，边执行”，引领了具身研究的趋势。

从感知到决策，从模型到数据，蚂蚁灵波正在打造具身智能的“大脑平台”。其最新开源成果，也启发着行业思维转向。

物理AI数据先行

追根溯源来看，这种通过软件方法加强感知能力，而不是一味堆传感器的思想，体现了计算机科学中的软件硬件等效原理。

那软件和硬件手段应该如何取舍？与具身智能同属物理AI的自动驾驶行业，已在该问题上形成了共识，值得参考借鉴：

首先最值得重视的是数据和算法架构。前者是AI迭代的基石，后者是指将多个算法整合形成合力，并长期积累的能力。

其次才是堆更多数量和价格更高的传感器。自动驾驶从业者普遍认为，随着数据越来越多，再加上算法架构持续升级，模型的空间感知能力会越来越强，这时再堆传感器，虽然有用，但是提升的效果会越来越弱。

正是有了这样的共识，行业才打下了硬件成本，为自动驾驶商业化繁荣奠定了基础。

自动驾驶的实践已经证明，物理AI落地，优先考虑软件手段，这并不会削弱空间智能，还可以推动商业化。这同样也是蚂蚁灵波开源一系列模型和数据集，给具身智能行业带来的启发：

加强空间智能，数据算法优先，不必追逐昂贵硬件。

数据集地址：

Hugging Face:https://huggingface.co/datasets/robbyant/mdm_depth

ModelScope：https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset

上一篇：美媒：中国让人们看到AI美妆市场的未来模样

下一篇：开源证券给予海尔生物"买入"评级：国内市场稳步复苏，海外版图持续扩宽

2700GB高质量数据，训出空间智能SOTA，背后秘诀全栈开源

相关内容

热门资讯