炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
新智元报道
编辑:Aeneas KingHZ
【新智元导读】就在刚刚,DeepMind科学家Jon Richens表示,自己的一篇ICML 2025论文发现,智能体就是世界模型!总之,如果要实现AGI,是绝对不存在无模型的捷径的。而这个说法,恰巧跟Ilya 23年的预言不谋而合了。
就在刚刚,DeepMind科学家Jon Richens在ICML 2025上发表的论文,一石激起千层浪。
实现人类水平的智能体(即AGI),是否需要世界模型,还是存在无模型的捷径?
他们从第一性原理出发,揭示了一个令人惊讶的答案——
智能体就是世界模型!
具体来说,对这个问题的形式化回答如下。
任何能够泛化到多步目标导向任务的智能体,必然已经学习了其环境的预测模型。
这个模型可以从智能体的策略中提取出来;而要提升智能体的性能,或让其完成更复杂的目标任务,就必须学习更精确的世界模型。
论文地址:https://arxiv.org/pdf/2506.01622
业界:意义重大
爱丁堡大学博士生Shangmin Guo表示,完全同意谷歌DeepMind的这个结论,而且他们也一直在有意让训练策略来进行世界建模。
巧的是,就在刚刚他们也发布了一篇文章,发现可以将策略和世界模型统一到一个LLM中,因此完全不需要外部动态模型!
而另一篇已经给RLC 2025投稿的文章中提出的观点,也和这项研究相互印证。
还有人发现,这项研究跟2023年Ilya提出的一个说法,竟然不谋而合了——
存在一个更深层次的东西,一条支配所有智能体的基本法则。
还有人提出一个非常新奇的研究思路:图——网络图——是世界模型非常好的抽象形式。因为没有任何结构是我们无法用图来描述的。
或许,世界模型对于AGI的重要性,恰恰就体现在通过降维来实现复杂性的实际问题。
存在无模型的捷径吗?
世界模型是人类目标导向的基础,但在混乱的开放世界中很难学习。
不过,现在我们已经看到了通用的、无模型的很多智能体,比如Gato、PaLM-E、Pi-0……
所以,这些智能体究竟是学习了隐式的世界模型,还是找到了另一种泛化到新任务的方法?
经过探究后,研究者们发现:任何能泛化到广泛简单目标导向任务的智能体,必然已经学会了一个能够模拟其环境的预测模型。并且,这个模型始终可以从智能体中恢复。
具体来说,他们展示出:在足够广泛的一组简单目标(例如将环境引导至某个期望状态)上,只要一个以目标为条件的策略满足一定的后悔值上界,就有可能从该策略中恢复出一个对环境转移函数的有界误差近似!
总之,为了实现更低的后悔值,或完成更复杂的目标,智能体必须学习越来越精确的世界模型。
而「以目标为条件的策略」,在信息上实际就等价于世界模型!
不过,这种等价仅适用于具有多步时间跨度的目标,而那些目光短浅的智能体因为只考虑眼前的回报,就并不需要学习世界模型了。
总之,根本不存在这样一条「无模型的捷径」!
如果你想训练一个能够完成广泛目标导向任务的智能体,就无法回避学习世界模型的挑战。
而且,为了提升性能或通用性,智能体还需要学习越来越精确和详细的世界模型。
所以,智能体中究竟蕴含了什么世界知识呢?
为了探寻这个答案,研究者们推导出了一些算法,能够在已知智能体策略和目标的情况下恢复其世界模型。
这些算法补全了规划和逆强化学习的三位一体关系。
规划:世界模型+目标→策略
逆强化学习:世界模型+策略→目标
研究者提出的这一环:策略+目标→世界模型
在这个过程中,智能体就体现出了惊人的涌现能力!
这是因为,为了在众多目标上最小化训练损失,智能体必须学习一个世界模型,这使得它能够解决一些并未被明确训练过的任务。
哪怕只是简单的目标导向性,也能催生出多种能力,比如社会认知、对不确定性的推理、意图识别等。
另外,在此前的研究中,他们发现要实现鲁棒性,需要一个因果世界模型。
但事实上,任务泛化并不需要对环境具备太多的因果知识。
在这里,就存在因果层级体系,不过它针对的是智能体性与智能体能力,而不是针对推理过程的。
下面,就让我们仔细阅读这篇精彩的论文,开启一场思维盛宴!
人类智能的特征,就是世界模型
人类智能的一大特征,是能够在几乎没有监督的情况下完成新任务,这种能力可以被形式化为「小样本学习」和「零样本学习」。
而现在,LLM开始展现出这些能力,这也就给了我们AGI的期待——能在复杂现实环境中完成长时序、以目标为导向任务的系统。
在人类中,这种灵活的目标导向行为,高度依赖于对世界的丰富心理表征,也就是所谓「世界模型」。
不过,如果要实现AGI,必须先拥有世界模型吗?
这个问题,在业界一直存在争论。
1991年,Brooks在《没有表征的智能》中提出了著名观点:世界本身就是最好的模型。所有智能行为都可以通过智能体在「感知-行动」回路中的交互产生,无需学习显式的世界表征。
论文链接:https://people.csail.mit.edu/brooks/papers/representation.pdf
然而,越来越多的证据表明,实际上,无模型智能体可能在隐式地学习世界模型,甚至在学习隐式规划算法。
这就引出了一个根本性问题:我们是否可以通过「无模型捷径」实现人类级别的AI?还是说,学习一个世界模型是不可避免的?
如果必须要有世界模型,那它究竟需要多精确、多全面,才能支撑起某一水平的能力?
本篇论文的答案是——
在一组足够多样的简单目标任务中,任何能够满足「后悔值界限」的智能体,必然已经学习了其环境的准确预测模型。
换句话说:智能体策略中已经包含了准确模拟环境所需的全部信息。
更重要的是,研究者的这个结论对任何满足「后悔值界限」的智能体都成立,无论它的训练方式、体系结构,甚至不假设理性前提。
不仅如此,在第3节中,研究者还提出了从通用智能体中提取世界模型的新算法。
结果表明,即便智能体显著偏离我们设定的「能力假设」,这些算法依然能够恢复出准确的世界模型!
实验设置
在这个实验中,大写字母表示随机变量,小写字母表示该变量的取值或状态,即X=x。
我们假设环境是一个可控马尔可夫过程,即没有指定奖励函数或折扣因子的马尔可夫决策过程(MDP)。
形式上,一个cMP包含以下元素:
将状态–动作对随时间演化的序列称为轨迹,记作
轨迹的一个有限前缀称为历史,记作
定义1,就是一个可控马尔科夫过程。
在假设1中,研究者假设环境是由一个不可约、平稳、有限维的可控马尔可夫过程(定义1)描述的,且至少包含两个动作。
而研究者的目标,就是定义一类简单且直观的目标,让我们能合理地期望智能体能实现这些目标。
由此,他们提出了定义2。
利用定义2,就可以通过将目标以顺序或并行方式组合起来,构造出复杂度不断提升的复合目标。
然后,他们提出了定义3。
举个例子来说,一个维修机器人被赋予以下任务:要么修理一台故障的机器,要么找到一位工程师,并通知他机器出了问题。
修理机器需要执行一系列预定的动作a_1,a_2,…,a_N,并在每一步都达到对应的期望状态s_1,s_2,…,s_N。
找到并通知工程师的过程,要求机器人移动到工程师所在的位置S=s_seng,并执行一个通知动作A=a′。
机器人的总体目标,可以表示为一个复合目标:ψ=ψ1∨ψ2。即:完成修理任务或完成通知任务中的任意一个即可。
智能体
这些研究的目标,就是提出一个最简化定义,用于描述能够在其环境中实现多种目标的智能体。
为此,研究者聚焦于目标条件智能体,这类智能体的策略,即是将历史h_t和目标ψ映射为动作a_t(如图2)。
图中介绍了一个智能体-环境系统。
智能体是从当前状态s_t(或历史)和目标ψ映射到动作a_t的函数。
图中的虚线表示算法1,该算法可以根据这个智能体映射关系恢复出环境的状态转移概率。
需注意,该定义并不限制智能体必须依赖完整环境历史来选择动作——
任何策略(例如马尔可夫策略)均可由此表示。
为简化分析,研究者假设:
基于此,自然可定义给定环境与目标集Ψ的最优目标条件智能体,即对于所有ψ ∈ Ψ,该策略最大化目标ψ的实现概率,见定义4。
现实中的智能体很少是最优的,尤其是在复杂环境中执行需要协调多个子目标、跨越较长时间跨度的任务时。
因此,研究者放宽了定义4了,定义了一类有界智能体(bounded agent),它能够在某个最大目标深度Ψn内实现目标,其失败率相对于最优智能体是有界的。
有界智能体由两个参数定义(见下列定义5):
这种定义自然地涵盖了我们关注的智能体类型——
它们在实现某种复杂度(由δ和Ψn参数化)目标方面具有一定能力。
重要的是,定义5仅假设智能体具备一定的能力。
智能体就是世界模型
最终,研究人员证明了条件策略与世界模型的「等价性」:
环境的转移函数的近似(世界模型)仅由智能体的策略决定,并且具有有限的误差。
因此,学习这样目标条件策略在信息上等同于学习准确的世界模型。
这需要归约证明,详细证明见原文附录。
具体而言,研究人员假设智能体是有目标条件的有限智能体(定义5),即它在某些有限深度n的目标导向任务中具有一定(下限的)能力(定义3)。
首先,研究者给出用于定理1证明中的过程——算法1(Algorithm 1)的伪代码。
在给定后悔界限的目标条件策略情况下,算法1用于推导转移概率的有界误差估计。
随后,研究者给出算法2(Algorithm 2),这是一个用于估计Pˆss′(a)的替代算法,其误差界限比算法1更弱,但实现方式明显更为简单。
算法组合拳
算法1,能从从一个有目标条件的有限智能体恢复有界误差世界模型。
算法1是通用的,意味着该算法适用于所有满足定义5的智能体和所有满足假设1的环境。
它也是无监督的;该算法的唯一输入是智能体的策略π。
这个算法的存在,将π转化为一个有界误差世界模型,意味着世界模型编码在智能体的策略中,学习这样的策略在信息上等同于学习一个世界模型。
从定理1中恢复的世界模型的准确性随着智能体接近最优(δ→0)和/或能够实现的顺序目标的深度n增加而提高。
推导出的误差界限的一个关键结论是,对于任何δ<1,如果n足够大,我们就可以恢复一个任意准确的世界模型。
因此,为了实现长时间跨度的目标,即使失败率较高(δ∼1),智能体也必须学会一个高度准确的世界模型。
误差界限还依赖于转移概率。
这意味着对于任何δ>0和/或有限的n,可能存在低概率的转移,智能体不需要学习这些转移。
这与直觉一致,即次优或有限时间跨度的智能体,只需要学习覆盖更常见转移的稀疏世界模型。
但要实现更高成功率或更长时间跨度的目标,则需要更高分辨率的世界模型。
图3:算法2恢复出的世界模型中的平均误差⟨ϵ⟩和平均误差随⟨δ(n=50)⟩变化的趋势图3a显示,随着智能体泛化能力的提升,其恢复出的世界模型误差(⟨ϵ⟩)呈显著下降趋势。
这表明:为了在更复杂的目标上保持稳定表现,智能体必须构建更高精度的内部世界模型。
这一实验验证了理论推导中关于误差收敛性的预期。
Nmax(⟨δ⟩=0.04)表示在智能体达到平均后悔值≤0.04的条件下,可实现的最大目标深度。误差的缩放关系为O(n^−1/2),这与定理1中最坏情况下的误差ϵ与最坏情况下后悔值δ的缩放关系一致。
图3b展示了平均误差随⟨δ(n=50)⟩变化的趋势,即智能体在深度为n=50的目标上所达到的平均后悔值。
在两张图中,误差条表示10次实验中平均值的95%置信区间。
短视智能体:不必学习世界模型
定理1给出了一个微不足道的误差界限,但这些世界模型只能从最大目标深度为1的智能体提取。
尚不清楚这是否意味着只优化即时结果的智能体(myopic agent,短视智能体)不需要学习世界模型,还是定理1能捕捉到这一类智能体。
为了解决这个问题,研究者推导出了针对短视智能体的结果。
这些智能体对于n=1满足后悔界限,对于任何n>1只有一个微不足道的后悔界限(δ=1)。
定理2意味着不存在任何过程可以即使是部分地从短视智能体的策略中确定转移概率。
定理2显式构造最优的短视智能体来说明了这一点,详细证明见原文附录B。
因此,这种智能体的策略只能对转移概率提供微不足道的界限。
所以,对于短视智能体而言,学习世界模型并不是必要的——
只有当智能体追求包含多个子目标、需要多步完成的任务时,世界模型才是必需的。
参考资料:
https://x.com/jonathanrichens/status/1930221408199516657