一凡 发自 凹非寺
量子位 | 公众号 QbitAI
什么在限制空间智能落地?
从自动驾驶到具身智能,行业对此的共识是:数据。
因为数据不够,模型泛化能力就弱,只能靠硬件来凑。
这在机器人身上体现得尤为明显。机器人要感知空间,常用的硬件是RGB-D相机,它既能看懂RGB图像,又能感知深度,从而获取到三维立体信息,让机器人理解物理世界。
但问题是,机器人的这双眼并不靠谱,遇到镜子、电梯、玻璃门等透明物体或者反光表面,RGB-D相机就容易失效,导致机器人感知异常。
这些场景绕不开,躲不掉,都是机器人走进千家万户,一定会碰到的问题,必须要解决。但因为缺少数据底座,行业过去的解决方式一般是靠堆硬件,补短板,强化感知能力。
这种局面即将迎来改变。因为就在刚刚,具身智能的基建玩家出手,对症下药,推出了一个开源数据基座。基于这个基座训练的模型,都已经实现SOTA了。
空间智能卡在哪儿了?
空间智能给了机器人一双眼睛和小脑,机器人靠它才能实现感知、规划、导航和精细操作。
比如说机器人需要拿起面前的杯子,它不光要看懂这是杯子,还需要知道杯子离自己有多远、边界在哪儿。
问题是,实现空间智能并不容易,需要依靠大规模、高质量的数据。互联网上已有的海量RGB图像,规模确实大但不符合要求,因为它只能“喂”给AI二维信息,AI很难从中生长出三维空间的理解能力。
所以行业这些年一直在给AI补空间理解这门课,路线也不少,有RGB-D相机、激光雷达和3D重建等方法。
其中RGB-D相机路线一直都很受欢迎,因为它就像给AI开了“第三只眼”,不光能测长和宽,还能测量距离,而且不需要复杂后处理,可以实时感知环境。
但RGB-D路线也有不足,主要有两个问题。首先第一个问题是,采集任务本身比较困难,不是说简单地举个相机,找个机位,“咔嚓”一拍就完事儿。不仅需要检查左右图像一致性,还要对RGB图像和深度信息进行时空同步,以及处理不同硬件之间的差异。
这还不算完,获取到RGB-D数据后,第二个问题接着就来了,研究者会发现其实RGB-D相机有时候很不靠谱,碰到玻璃、镜面、金属反光材质和白墙这种低纹理表面就容易失效。
还是以机器人拿杯子为例,咱们日常生活看到的杯子一般都长这样:
而在RGB-D相机的深度传感器下,杯子be like酱婶儿:
在机器人的视角里,两个杯子直接连成了一块,根本难以分辨,也自然无法准确拿取。RGB-D相机的不稳定,进一步导致了高质量RGB-D数据的缺失。
蚂蚁灵波开源空间智能数据基建
为了缓解行业的数据痛点,蚂蚁灵波最近开源了LingBot-Depth-Dataset数据集,其总体规模达到2.71TB,包含300万对标注RGB-D数据,每一对样本都包含一张RGB图像、传感器原始深度图和真值深度图。
其中大部分都是真实数据,大约有200万对,140万对是由多台RGB-D相机采集自真实室内场景的数据RobbyReal(如下图所示),以及58万对由机器人在VLA任务中采集的数据RobbyVla。
这些真实数据的来源非常广泛,包括住宅、教室、博物馆、商店、医院、健身房和电梯等各种生活场景,数据来源丰富,作为训练底座时就能增强模型的泛化性。
此外还有约100万对由双相机视角渲染生成的合成数据RobbySim。
其余部分都是RobbySimVal,含有3.8万条数据,作为仿真数据的验证集。这种虚实融合采集数据的方式,既能覆盖一些边缘场景,也能降低数据采集成本。
规模大、场景丰富,只是数据集可以被行业广泛使用的必要条件,但还不是全部。
LingBot-Depth-Dataset还有一个值得关注的地方在于数据分布的多样性,它在构建时使用Orbbec 335、335L,RealSense D405、D415、D435、D455这6款主流深度相机进行采集,不同相机在成像特性、噪声模式、深度精度上各有差异,使得数据集天然覆盖了多种传感器分布,为下游研究和模型训练提供了更丰富的数据基础。
这意味着这座数据金矿,可以被更多研发团队挖掘,成为空间智能的数据基建。
打造具身智能的“大脑平台”
蚂蚁灵波开源的这套数据基建,缓解了开源社区缺乏真实场景拍摄数据的问题,不仅量大管饱,而且战绩可查。
今年年初,蚂蚁灵波发布了LingBot-Depth模型,LingBot-Depth主要基于LingBot-Depth-Dataset数据集训练,在多项权威深度补全基准测试如iBims、NYUv2和DIODE上实现了SOTA。
而当LingBot-Depth部署到真实环境后,可以驱动机器人稳健抓取透明和反光物体,这在以往可以说是天方夜谭的事情。
随后,蚂蚁灵波又紧接着开源了LingBot-VLA,打通视觉、语言和动作,驱动机器人做出决策。
紧随其后开源的LingBot-World,则为模型提供了仿真训练场。
当时压轴登场的LingBot-VA,则率先让世界模型直接驱动机器人动作,实现了“边推演,边执行”,引领了具身研究的趋势。
从感知到决策,从模型到数据,蚂蚁灵波正在打造具身智能的“大脑平台”。其最新开源成果,也启发着行业思维转向。
物理AI数据先行
追根溯源来看,这种通过软件方法加强感知能力,而不是一味堆传感器的思想,体现了计算机科学中的软件硬件等效原理。
那软件和硬件手段应该如何取舍?与具身智能同属物理AI的自动驾驶行业,已在该问题上形成了共识,值得参考借鉴:
首先最值得重视的是数据和算法架构。前者是AI迭代的基石,后者是指将多个算法整合形成合力,并长期积累的能力。
其次才是堆更多数量和价格更高的传感器。自动驾驶从业者普遍认为,随着数据越来越多,再加上算法架构持续升级,模型的空间感知能力会越来越强,这时再堆传感器,虽然有用,但是提升的效果会越来越弱。
正是有了这样的共识,行业才打下了硬件成本,为自动驾驶商业化繁荣奠定了基础。
自动驾驶的实践已经证明,物理AI落地,优先考虑软件手段,这并不会削弱空间智能,还可以推动商业化。这同样也是蚂蚁灵波开源一系列模型和数据集,给具身智能行业带来的启发:
加强空间智能,数据算法优先,不必追逐昂贵硬件。
数据集地址:
Hugging Face:https://huggingface.co/datasets/robbyant/mdm_depth
ModelScope:https://modelscope.cn/datasets/Robbyant/LingBot-Depth-Dataset