【环球时报报道 记者 杨沙沙】具身智能距离“ChatGPT时刻”似乎从未如此之近。今年4月,北京亦庄半程马拉松暨人形机器人半程马拉松赛上,机器人以超越人类冠军的速度完赛;北京车展,车企描述了未来“机器人陪试驾”等场景;多家机器人企业预测,今年或者不久的将来,就会看到具身智能领域的“ChatGPT时刻”。“经过数十年尝试,生成式人工智能(GenAI)革命终于让机器人能够感知真实世界。”美国《时代》周刊评论称,中国正赢得这场机器人革命。支撑这一愿景的核心,并非仅靠炫目的硬件,而是被誉为“数字原油”的海量高质量数据。中国企业正依托全球最完整制造业门类与丰富的线下场景,推进“人类历史上规模空前的数据采集行动”。从数据的“原油”开采到机器人的“智能涌现”,具身智能离“ChatGPT时刻”还有多远?《环球时报》记者对此进行了采访调查。
“数字原油”的重要性
“今年年底,如果你来到我们的门店,你会看到现场销售可能有10%是机器人。”在刚结束的北京车展上,小鹏集团董事长兼首席执行官何小鹏向《环球时报》等媒体描绘了一幅颇具未来感的画面:机器人会帮你讲解小鹏新车GX;你要试驾,美女机器人陪同;你要签单,帅哥机器人随行。
北京车展期间,小鹏汽车展台展示的全新一代人形机器人IRON是现场耀眼的“明星”。在去年的小鹏科技日发布会上,这款身高178厘米、体重70公斤的机器人,像模特一般走起轻盈猫步,被不少网友怀疑“里面藏了个真人”。
2022年11月,美国开放人工智能研究中心(OpenAI)发布的大语言模型ChatGPT标志着人工智能走向成熟阶段,现在很多人在问:具身智能即将迎来“ChatGPT时刻”吗?对于《环球时报》记者抛出的这个问题,何小鹏不太确定具体时间,但他表示:“机器人大概每一年到一年半经历一次迭代。我个人认为,也许在今年年底发布迭代后的机器人,就会看到‘ChatGPT时刻’。”
就在北京车展前几天,宇树科技创始人王兴兴在一场论坛上表示,具身智能领域,未来2到3年内或将出现“ChatGPT时刻”。王兴兴将“具身智能的ChatGPT时刻”定义为:未来,机器人能在80%左右的陌生场景中,通过语音和语言指令,顺利完成约80%的任务。要实现这一目标,他点名三大关键突破方向:一是提高模型对任务的表达能力;二是提升模型对数据的利用率;三是改善AI模型与真实机器人的对齐效果。
而在上述方向中,不少业内人士认为,具身智能产业爆发的核心瓶颈在于模型训练时数据的极度缺失。今年全国两会期间,全国政协委员、新希望集团董事长刘永好在接受《环球时报》记者采访时反复提及,“机器人在复杂作业环境下的操作数据极度稀缺”,具身智能要真实落地,需要海量高质量数据训练模型。中国机器人初创企业银河通用创始人兼首席技术官王鹤接受记者专访时断言,“谁拥有大量人形机器人干活的数据,谁就能在这个时代训练出好模型”。
英国广播公司(BBC)报道称,训练大语言模型可以依赖海量网络文本,但训练机器人需要物理世界的场景。例如训练机器人开门这项动作,可能需要上百、甚至上千次重复,从每一次失败中不断调整算法。
打通上述关键节点,意味着具身智能真正迈过落地应用的门槛。北京大学计算机学院助理教授、博士生导师仉尚航在接受《环球时报》记者采访时,用一个比喻揭示了人类数据对具身智能的重要性:如果将数据采集类比为石油开采,那么物理世界就是“富矿”,而以人为中心的数据便是“数字原油”。业内正在做的,就是从“原油”中持续提炼出对不同机器人形态均有价值的“能量”。
仉尚航解释称,具身智能大模型的数据,像“金字塔”一样分三个层次:最底层是容易获取、但质量较低的互联网数据;中间层是能够提供丰富标签、但存在较大“仿真到现实”迁移鸿沟的仿真数据;最顶层则是高质量但数量稀少、采集成本高昂的真实操作数据。
“这种金字塔结构的瓶颈在于,仅靠人力操作机器人采集数据,无论怎么采,数据量始终不足,难以支撑具身智能落地应用的需求。”仉尚航称,目前一个比较好的解决途径是建立以人为中心的数据采集系统,简单说,就是人类操作者采用便携式手持或头戴设备,记录人类操作的运动、视觉、声音及触觉等多模态信息,以及人类与物理世界的交互信息。
“人类历史上规模最大的数据采集行动”如何开展?
近日,江苏宿迁一家折扣超市夜晚闭店之后,迎来了一群特殊的“理货员”。数十名京东具身智能数据采集员头戴专业设备,穿梭于货架之间,有条不紊地整理着货品。与普通理货员麻利的动作不同,他们的一举一动都被刻意放慢——每一个姿态、每一个动作都精准定格,力求采集到最标准的第一视角数据。这些采集到的数据,经由京东云标注与处理后,将为具身智能的训练积累宝贵的学习样本,最终教会机器人读懂场景、学会做事。
京东近日宣布将构建全球规模最大的具身智能数据采集中心,发动最多60万人进行“人类历史上规模最大的数据采集行动”,在两年内积累1000万小时人类真实场景视频数据。同时,京东也发布自研超高清采集终端JoyEgoCam,据称这款头戴式设备整机重220克,轻于普通智能手机,采集员佩戴后,可在物流、零售、医疗、家庭等多种场景下“即戴即采”,完成专业级数据采集。
采集到大规模的第一视角数据后,如何有效处理和使用数据,是业内的巨大难题。清华大学人工智能研究院副院长朱军也是生数科技创始人,他曾带领团队自行设计了一款采集装备,雇用数百名员工,在100多个真实家庭生活场景中进行数据采集,收集得到约1万多小时的数据。“这项工作从准备数据到最终完成,前后耗时约半年,而模型训练本身只花了一两个月。”朱军近日对《环球时报》等媒体表示,这个例子充分说明行业当前非常看重高质量数据。
京东方面同样对数据质量非常看重。京东集团副总裁、京东云基础云业务负责人龚义成举例说:“早期验证时我们发现,用前1000小时高质量数据训练,模型任务准确率可达90%。但当追加1000小时质量较差的数据后,模型准确率非但没有提升,反而可能下降。数据的质量对模型效果有决定性影响,绝不能盲目追求数量而忽视质量。”
什么是高质量数据?龚义成对《环球时报》记者表示,高质量数据首先体现在拍摄视频本身的质量上,如分辨率是1080P还是4K,画面是否清晰。其次是采集过程的稳定性,例如画面剧烈抖动,或手部动作造成采集对象被大幅遮挡等,都属于质量较差的数据。再深入一层,数据需要具备多样性和泛化性,如果长时间只重复干一件事,缺乏场景变化,那么数据的价值就会减弱。
“中国或将主导物理人工智能的未来”
“我相信人类将逐渐去做高等级的、有创造性的工作,把那种枯燥、循环、简单、危险和没有人愿意干的事情交给机器。”在距离人形机器人IRON几米远的展台一角,何小鹏和媒体记者这样展望。他认为,今天大部分的机器人还没有真正帮助到人,但是从明年市场将会看到,帮助到人的机器人会有少数量产。
但国内机器人企业对“ChatGPT时刻”是否即将到来看法不一。众擎机器人相关负责人认为,除了数据之外,具身智能模型、硬件与软件等方面,离“ChatGPT时刻”仍有差距。“当真正要做到量产、进产线落地的时候,会发现当前这类载体机器人在硬件上相比真正的人还有相当多的缺陷,很多任务因为硬件的缺陷导致其上限达不到人的状态。”
自变量机器人联合创始人兼首席运营官杨倩也有自己的判断。她向《环球时报》记者表示,具身智能的“ChatGPT时刻”并非单一的技术爆点,而是软硬协同突破的临界点。“大模型决定了具身智能的上限,而硬件本体决定了下限。”杨倩表示,目前在边界清晰的简单任务中,行业已初步观察到智能涌现;但在长周期、高动态的复杂场景下,如果硬件在动力负载、多维自由度等工程指标上达不到要求,再先进的算法也会受限于物理躯壳。
外界更多聚焦中美具身智能产业的发展势头。“中国或将主导物理人工智能的未来。”《时代》周刊近日以此为题刊文称,当美国前沿实验室在大语言模型排行榜上激烈角逐时,中国的人工智能能力正以实体形态显现——走出屏幕,融入日常生活。2025年,中国占据全球人形机器人装机量的80%以上,以及全球工业机器人装机量的一半以上。报道称,哪个国家部署机器人速度更快,就能收集更多数据,进而实现更好的部署。
关于数据采集,行业内普遍认为最有优势的国家是中国。有业内专家向《环球时报》记者分析,原因有两点:第一,中国人口众多,具备大规模数据采集的人力基础;第二,中国是制造业强国,拥有极其丰富和多样化的应用场景。“相比之下,从美国制造业现状看,其在场景的丰富度上存在明显欠缺。这是中国在数据维度上一个非常重要的优势。”该专家表示。
从技术角度看,上述专家称,中国在数据采集设备和硬件层面也相当强,几乎与国际同步。而国外的优势,在他看来更多体现在模型层面——包括具身大模型在内,美国具备一定的领先性,部分原因在于其算力资源相对充足。“但我认为这只是暂时的、阶段性的差异。中美双方的技术实际上处于一个持续的循环和交互过程中,在互相借鉴和追赶中共同前进。”
上一篇:民族特色焕新,古朴也时尚
下一篇:“AI机器人食堂”向市民开放