巅峰对话具身智能：高光时刻的三个追问_热点

巅峰对话具身智能：高光时刻的三个追问

创始人

2025-06-07 21:51:46

　　炒股就看金麒麟分析师研报，权威，专业，及时，全面，助您挖掘潜力主题机会！

2025年6月6日，北京智源大会的聚光灯下，一群造梦者正重新定义生产力的新形态。当宇树科技CEO王兴兴在现场对宇树G1发出动作展示指令时，闪光灯此起彼伏；银河通用创始人兼CTO王鹤勾勒的24小时无人药店，验证了具身智能的可替代价值；北京人形机器人创新中心总经理熊友军则直指面形态之选的可见与潜在成本；穹彻智能联合创始⼈卢策吾以"火锅底料"妙喻VLA（视觉语言动作）模型的意义和局限性。和其他生产力变革发生时一样，人们时常高估了短期影响，低估了进化过程中的路径选择。这场对话不仅是技术讨论，更是一部生产力变革的思考录。

关于赛事，到底验证了什么

王兴兴：终极目标实现前，可产生商业价值

宇树科技的终极目标是希望机器人解放人类的生产力，无论是在家庭还是在工厂，去从事一些辛苦的工作，本质上是希望通过AI技术让机器人，尤其是人形机器人做各种全身动作。

跳舞、格斗、包括端茶倒水、洗衣做饭，都是全身动作的一部分，所以我相信当AI技术包括具身智能技术发展到一定阶段时，一个足够智能的家用机器人肯定是可以跳舞、格斗的。

但目前机器人还不能直接去家庭或工厂干活，这是全球都面临的问题。在终极目标没有实现前，宇树科技参加一些表演和格斗比赛，是想给大家展示一下机器人发展的真实情况，并产生一部分商业价值。比如今年上半年人形机器人租赁市场比较火爆，本身已经带来了一些产业价值。

王鹤：要反思炫酷功能在新环境下的成功率

具身智能当下的一个目标是要推动产业化，虽然我们看到了很多炫酷的功能，但也一定要反思这样的技能在新环境下，在客户需要百分百成功率的情况下，能不能成功。这也是银河通用和智源联合团队的思考，就是先把最重要的技能打通。

如果我们能让人形机器人24小时服务，这样就能让具身智能真正走向产业化、真正服务人民，是创造生产力的开始。现在银河通用机器人已经在北京开了7家无人药店，由银河通用的人形机器人24小时拣药、对接骑手，这样无人药店可以在夜间为急需用药的患者服务，又不需要人类24小时在岗。今年（2025年）我们将在北京、上海、深圳一共开100家药店。

我们希望后续将赛事在操作级别上对接起来，用赛事引领有价值、可落地的技能形成，让生态转起来。

关于形态，非要人形吗

王兴兴：不坚持一定要做人形，但目前人形有很大优势

我们曾经公开多次，不坚持一定要做人形机器人，机器人的腿可以有轮子、底盘，这是非常实用的。为什么现在大家喜欢做人形机器人，尤其是上半身保持人的形态的机器人？因为现在AI主要基于人的形态进行数据采集或训练，如果机器人的上半身和人的动作一致，数据采集会方便很多，也方便AI做训练。全身动作也是一样，但是如果把机器人做成别的样式，就没办法做到跳舞、格斗。

当真正的通用智能时代来临时，机器人的形态会千奇百怪，它们会去工厂干活、去医院服务，形态甚至比现在多100倍。因为目前的AI是由数据驱动的，长的像人的机器人在训练、落地的时候，会占很大优势。

熊友军：人形机器人的市场容量会更大

具身智能的发展和形式，确实是多种多样，不一定局限于人形，人形只是一个比较好的载体。

这主要从未来市场的容量来考虑。现在的机器人不必像人，也可以是四足与轮式，这没问题。从市场应用情况来看，最大的市场是走路、商用和家庭，今天的工厂应用场景只是开胃小菜。我认为人形机器人的市场容量比其他的机器人容量要大。

从人机交互来讲，既然以后机器人会走入家庭和生活，成为我们的朋友，甚至成为我们的爱人都有可能，人形机器人可以更自然的人机交互并被人接受。另外，现在的环境大部分是为人设计的，部署人形机器人、让人形机器人适应环境的过程非常便利，它们可以方便地使用我们的工具，不需要做太多的改造。虽然现在人形机器人在成本和技术上不占优势，但长远看是一个很好的载体。

关于VLA模型，突破点在哪

王鹤：只是一个起点，还要不断融合新的模态

自动驾驶验证了端到端方案有更好的扩展性，能够通过数据真正驱动模型，而不是靠无穷无尽的规则。从这个角度看，VLA模型最直接的意义在于视觉观测，真正能够充分地吸收数据背后的知识，让模型发挥最大的性能。

目前VLA是具身智能研究的热点，但要突破什么有不同的观点，有人认为应该把人类能做的一切事情快速地做进去，形成一个基座模型，我认为有点太着急了。人类除了视觉的输入外，还有力觉、触觉、嗅觉、味觉、温觉、听觉等，VLA只能是一个起点，要做到人类级别的具身智能，只能不断地融合新的模态。

我认为VLA现在最适合做移动抓取和放置，这几个技能基本靠视觉为主，末端加触觉或力觉的传感器就能很好地执行，而且在工业、商业、服务场景里有非常广泛的应用。

卢策吾：有很好的拓展性，但也有局限性

V（Vision）理解世界、L（Language）沟通人类、A（Action）改变世界，这集合了机器人要干的几件事。VLA有很好的拓展性，但还是有局限性的，还要继续去推进。

想要具身智能逐步落地，面临的一个很大问题是，如果要通用，就需要很大空间。具身智能跟无人车不一样，无人车有两个决策维度，不用碰撞、接触，场景也相对固定，所以整个空间会比较小。

如果做通用，VLA需要压缩不确定性，相当于VLA是一个火锅底料，现在只是清水，服务一部分人，要服务更多人就需要不停往里面加东西，本质是增加更多额外信息，使VLA更加强大，而且能够兼容这个框架里加更多的信息，在端到端的模型里压缩它的空间。

记者手记：王兴兴，把舞台留给G1

在G1机器人成为流量担当的这半年，它和创始人王兴兴同时出现在公众面前的次数不多，智源大会算一次。

从主论坛舞台到台下自己的座位，王兴兴走得很匆忙。尽管提前设置了隔离线，也安排了安保人员，下场时他还是被团团围住。

自2019年智源大会创办，当年科技圈的顶流总会出现在现场。从某种程度说，王兴兴和G1是属于2025的人形机器人代表"符号"。

2025年宇树机器人从央视舞台走到马拉松赛场，再走向格斗台，踩在科技与娱乐的交界线上，收获了前所未来的关注。

6月6日，G1机器人在完成左右勾拳等动作时，现场每个人都能清晰听到金属关节摩擦的声音，随后的一个挑衅动作既像是搞笑桥段，又像是对未来技术的大胆假设。

会场内，王兴兴和同行就机器人形态等分享观点，会场外，宇树G1机器人出现在宇树科技自己的展位与智源研究院展位上，G1是少有的不需要移动吊架可随时展示的人形机器人，金属躯壳上，剐蹭的痕迹泛着金属光泽。

王兴兴没有在现场参与更多环节，也没有与媒体进行更多互动，而是把舞台留给了G1，每个人都有更多机会认识这款产品，以及无数走向台前的人形机器人。

王兴兴和同行知道，真正的变革发生在代码和齿轮的咬合处，而不是掌声雷动的舞台。

北京商报记者魏蔚

上一篇：京东基地计划启动，将深入百大特色农产品产地建立百万亩基地

下一篇：携手打造高质量发展动力源——长三角一体化发展新观察

巅峰对话具身智能：高光时刻的三个追问

相关内容

热门资讯