看娃拎包陪逛，京企新成果加速机器人“满街跑”_热点

看娃拎包陪逛，京企新成果加速机器人“满街跑”

创始人

2025-06-01 14:35:55

转自：北京日报客户端

儿童节到来之际，一段机器狗在超市里灵活陪母子逛街、提包携物、于人流中穿梭自如的视频在社交平台悄然走红。一些网友惊叹：“Ta怎么知道谁是妈妈，谁是孩子？” “不靠遥控也能自己跟着人走？！”这不是摆拍，而是一项中关村科学城企业刚刚发布的前沿技术成果。6月1日，银河通用正式推出自主研发的产品级端到端导航大模型——TrackVLA，这一具备纯视觉环境感知、语言指令驱动、可自主推理等能力的具身大模型，有望加速机器人“满大街跑”的想象从电影走进现实。

非科研人员第一次听到“端到端（End-to-End）模型”这个词时，会觉得陌生。简单理解，它就像动物的大脑，从“看到的图像”和“听到的指令”直接推理出“怎么走”，中间不需要人为拆分多个步骤。传统机器人通常以“指令理解-环境感知-目标识别-路径规划”模块化的形式单独处理分解的子任务，有的甚至还要对工作环境提前构建地图，而TrackVLA把这些能力通过一个统一的模型完成。

在TrackVLA的能力支撑下，你只需对机器狗说一句：“跟着妈妈”，它就能立即识别“妈妈”对应的目标位置。如果改口说“换成跟孩子”，它也能瞬间切换对象，并通过语音回复确认。甚至它还能跟踪你的宠物，这背后，是模型具备的自然语言理解与目标识别能力的协同工作。

在人流密集的购物中心中，面对复杂的场景、多变的环境中多个相似穿着的人，它能准确识别原始目标并长时自主跟随，通过空间理解和视觉记忆机制，避免“认错人”。

甚至如果目标走出视野，它也不会原地“发呆”，而是通过实时的空间智能和大模型推理能力根据目标运动轨迹“分析”出目标的大致位置，并规划轨迹重新找回目标。

据了解，这个名叫TrackVLA的端到端导航大模型能让机器人拥有“听-看-懂-走”的闭环运动能力：一双眼睛看世界、一个智能“大脑”做推理，无需提前建图、不依赖遥操控制，实现语言驱动、泛化感知、自主推理、智能交互与运动。它不依赖提前建好的地图，能靠视觉输入理解环境，在不依赖额外采集训练数据的情况下，能够直接部署在陌生商场、电梯、游乐区等环境，实现长时稳定自主跟随。

银河通用相关负责人表示，TrackVLA成功在此前未曾训练过的陌生场景中完成了一系列的验证：例如在超市中穿梭于人流和货架之间，准确跟随母子；根据语音指令切换目标，并在儿童玩耍时发出提醒；从电梯进入陌生商场，完成连续跟随任务；在人群密集的服装店中稳定识别并避让他人干扰；在目标消失后迅速分析并重新定位……据悉，此次发布无需建图、不依赖遥控、自主推理、智能交互的TrackVLA后，其机器人导航正式迈入端到端模型可商业化落地的阶段。

来源：北京日报客户端

上一篇：谢锋：严正交涉，坚定维护中国留学生的正当合法权益

下一篇：【环球财经】主要产油国7月将继续增产

看娃拎包陪逛，京企新成果加速机器人“满街跑”

相关内容

热门资讯