对话智源研究院院长王仲远:AI正加速从数字世界走向物理世界
创始人
2025-06-08 19:56:32
0

21世纪经济报道记者孔海丽 北京报道 

2025年智源大会上,人形机器人不再是吉祥物,被“围堵”的人从杨植麟变成了王兴兴。

这一年,AI进展迅猛,迭代周期甚至少于3个月,且不再局限于大语言模型,而是转化为人形机器人训练、落地的强辅助。

“人工智能正在加速从数字世界走向物理世界。”智源研究院院长王仲远在接受包括21世纪经济报道在内的记者采访时直言:“人工智能应该为世界做一些实实在在的事情,帮助人类摆脱繁琐的、重复的以及简单的劳动。”

AI技术路线转向世界模型

“大模型技术还远没有到发展的尽头,过往所说的‘百模大战’更多是大语言模型的竞争,而大语言模型受限于互联网数据的使用,基础模型性能虽然还在提升,但是提升速度不如以前。”在王仲远看来,大语言模型性能提升瓶颈的解法主要包括三个方面,一是强化学习优化推理能力,二是合成高质量数据替代人类标注,三是激活海量未充分利用的多模态数据,多模态数据的规模可达文本的“百倍乃至万倍”。

在智源研究院的判断中,大模型的技术路线会从大语言模型往多模态尤其是原生多模态世界模型的方向发展。原生多模态世界模型本质上是为了让人工智能感知和理解物理世界,进而推进和物理世界的交互。进入物理世界之后,在宏观层面,大模型与硬件结合,通过具身智能的发展解决实际生产生活问题。

“所有这一切构成的世界模型,是实现物理AGI的重要发展路径。”王仲远表示,智源研究院的工作布局都是围绕这一技术发展趋势进行的。

在2025北京智源大会上,继“悟道”系列大模型之后,智源研究院推出了“悟界”系列大模型,包括原生多模态世界模型Emu3、脑科学多模态通用基础模型见微Brainμ、跨本体具身大小脑协作框架RoboOS 2.0与具身大脑RoboBrain 2.0以及全原子微观生命模型OpenComplex2。

到底该如何定义“世界模型”内核,王仲远以咖啡杯举例:“现有模型能描述‘白色带文字的杯子在桌上’,但无法判断‘杯沿悬空可能坠落’——这需要时空预测能力。”他强调Emu3的核心突破正在于此:建立对物理因果关系的理解,而不仅是多模态信息拼接。

争议中的具身智能落地路径

当被问及具身智能的技术路线之争,王仲远展现出务实的态度。

​​关于人形是不是具身智能的最优解,王仲远肯定了人形机器人的长期价值:“社会基础设施为人类设计,双足构型更易融入,且海量人类行为数据利于模型训练。”

但短期内四足、轮式等形态将共存,“​​人形机器人的成熟周期更慢​​,今年刚学会跑,稳定性仍需突破。”他说道。

​​数据悖论如何解?​​ 面对“硬件能力不足限制数据采集,数据稀缺又制约模型进化”的循环困局,王仲远认为,可以通过互联网视频数据训练基础能力,再以少量真实数据强化学习微调。“就像孩子看视频学会串蓝莓,再动手实践优化动作。”

​​工厂场景为何优先?​​ “封闭环境可规避安全风险,且重复枯燥任务存在刚需。”他举例物流分拣、激光刻印等场景,“这些人类不愿做的工作,正是具身智能首个突破口”。

对于业内热炒的“大小脑融合”概念,王仲远表示,智源不否认大小脑融合的可能趋势,未来5-10年,大小脑融合的模型可能会成熟,但不是今天。

他直言,当前具身智能数据量不足以支持大小脑融合的模型训练。

目前,具身智能的VLA模型泛化性不够,也许能把咖啡端得很好,但并不能很好地解决其他泛化任务。王仲远认为,具身智能或者机器人2.0时代,最重要的是能突破专有任务,达到一定的泛化性,再到未来具备更通用、跨领域的泛化性,这需要一定的发展过程。

他判断,2006-2022年的深度学习或者AI 1.0时代,人工智能的发展路径是首先在某项能力上超越人类,然后进入到生产生活应用,积累了越来越多的数据,再随着算力、算法、数据达到一定程度,推动大模型的产生,随后,发现其具备了通用人工智能和跨领域的可能性。“VLA以及真正意义上端到端的具身大模型,需要时间沉淀。”

AGI刚过起跑线

MCP、Agent成为人工智能领域最新话题,这是否意味着AI有了实质性突破,以及AGI到底走到了哪一步?

王仲远认为,大模型发展到一定程度,达到可用状态之后,Agent是产业界可以开始发力的领域。

“基础大模型达到可用状态时,像水、电、操作系统一样,意味着可以基于这个操作系统开发很多APP。现在的Agent相当于移动互联网的APP,目前手机上很多APP也是工作流,但是越来越强时就能扩展能力。”他指出,现在大模型的思考能力和智能化程度已经实现使得部分Agent做得很好,这是产业界特别擅长和优势所在,这是产业发展的趋势。

王仲远表示,此前“百模大战”讨论的是基础大模型的竞争,但是基础大模型一定会收敛,现在可以看到行业内还剩下少数几个玩家在坚持基础大模型,这在某种程度上不会造成资源浪费。

将来有没有可能出现新的“千模大战”或者“万模大战”?王仲远并不排除这种可能性。他说,因为基础大模型进入产业,需要产业相关的数据衍生出垂类模型,但垂类模型并不是指垂类领域训练,而是基于好的基座模型+垂类数据,训练出好的产业模型。

“具身大模型的发展仍处于非常早期的阶段,类似于GPT-3前的探索期。”王仲远分析指出,当前具身智能也面临与早期AI大模型类似的挑战。

比如,技术路线尚未形成共识:学界与产业界对核心技术路径存在分歧,仿真数据、强化学习、大小脑融合架构等方向仍在探索中,尚未形成统一方法论;又如产业落地尚需突破:尽管智源推出具身智能跨本体大小脑协作框架等成果,但离大规模商用仍有较长距离,需要解决“感知-决策-行动”协同、多模态数据融合等基础问题。

或许,当机器人能真正理解“咖啡杯放桌沿会摔碎”时,才是物理AGI的里程碑。

相关内容

热门资讯

“贵族水果”,集体降价! “荔枝9块8一斤,山竹16块8一斤,榴莲都只要23块8一斤,最近的水果太划算了!”近日,家住北京市朝...
郑钱姐:以数字文明续写千年药食... 当东方养生智慧邂逅数字科技浪潮,企业家郑钱姐(郑晓铃)正重新定义“药食同源”的当代价值。其创立的“郑...
创新药ETF暴涨后市场分歧加大... 当创新药大火之际,融通基金经理万民远“唱反调”。“这位置大部分公司估计都见了未来三五年的顶。”他近日...
事关泰柬边境局势,泰国总理佩通... 当地时间6月8日,泰国总理佩通坦在社交网站上发文称,她已与柬埔寨政府就边境局势进行讨论,并达成了有利...
已有上百人中招!警方通报真实案... 智能手机给我们的生活带来的巨大的便利,但在涉密场所,智能手机往往会被限制使用甚至禁止带入,个别不法分...
第八届进博会正式接受境内外专业... 转自:北京日报客户端记者从中国国际进口博览局获悉,第八届进博会从2025年6月6日起正式接受境内外专...
中国女排以2胜2负战绩结束新周... 据央视体育消息,2025世界女排联赛北京站,中国女排2-3土耳其女排,以2胜2负的战绩结束新周期首站...
太可恶,该抓抓该判判!摆拍无底... 转自:扬子晚报6月8日,网信南岸微信公众号发布《考生高考作弊家长用钱摆平?假的,确认摆拍!》。全文如...
北京诗人、作家肖娟女士逝世,年... 据北京市海淀区作家协会消息,北京市作家协会会员、海淀区作家协会第三届理事会副秘书长肖娟女士,因病医治...
南京一中学发生火情,火势已被扑... 6月8日,南京市钟英中学发生火情。现场视频显示,校园内一栋大楼冒出浓烟,现场可见火光。视频截图记者拨...
绍兴大佬卖黄酒,飚上100亿 来源:@21世纪商业评论微博记者丨谢之迎  编辑丨谭璐浙商大佬,找到了黄酒的流量密码。今年618刚开...
艺术体操后备人才发展欣欣向荣 全国艺术体操锦标赛暨第十五届全国运动会艺术体操资格赛在重庆收官,今年比赛参赛队伍数量和选手人数再创新...
江西的“红箭头”老师火了! 今年高考南昌一位头戴“红箭头”发箍的送考老师走红网络“红箭头”老师名叫范云龙是南昌民德学校A+班物理...
又一上市公司“卖壳”终止!海王... 2025年6月6日,海王生物(000078)披露《关于终止控制权变更及向特定对象发行股票事项的公告》...
高考英语著名钉子户李华又出现了 转自:法治日报 【#高考英语著名钉子户李华又出现了#】#...
福昕软件高管李蔚岚拟减持580... 6月8日福昕软件公告,财务负责人李蔚岚拟于2025年6月30日 - 9月29日竞价减持不超5800股...
明天建设集团董事长王小召走访中... 2025年6月6日,明天建设集团董事长王小召前往中国建筑节能协会工程改造与加固分会(简称“改造加固分...
“两新”下乡进村 激活农村市场... 来源:央 “两新”政策实施以来,各地通过扩大补贴范围、优...
校园里的“飞行课堂” 转自:草原云老师与学生交流互动。6月8日,北大金秋呼和浩特赛罕区实验学校举行“低空探索·未来启航”校...
长阳科技高管李辰拟减持2.06... 6月8日长阳科技公告,副总经理李辰拟于2025年7月1日 - 9月30日竞价减持2.06万股,套现约...