强化学习之父Richard Sutton智源大会最新演讲:欢迎来到经验时代!
创始人
2025-06-08 09:51:10
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

2025年6月6日,强化学习奠基人、人工智能先驱 Richard Sutton 线上出席了第七届智源大会。

在大会开幕式上,Richard Sutton 发表了题为“Welcome to the Era of Experience(欢迎来到经验时代)”的主旨演讲。

这是 Richard Sutton 对人工智能发展方向的最新阐述。他明确指出:AI 的未来,不应再局限于模仿人类的知识输出,而应迈向一个真正能自主学习、主动探索、通过第一手经验成长的新时代

在大会上,Richard Sutton 给出了他的判断:AI 正在从“人类数据时代”进入“经验时代”,一个智能体应该主动参与世界,感知、行动、试错并积累自己的经验。他表示:AlphaGo 之所以能下出“第37手”—神之一手,就是因为它通过自我对弈,形成了人类未曾教授的理解。

Richard Sutton 同时表达了对“过度控制 AI”的担忧。他认为,不能以“安全”为名限制 AI 的行为能力、本体动机或主动性。

以下是 Richard Sutton 演讲全文,智源社区在不改变原意的基础上进行了编译。

从图灵到今天,AI走了半条路

今天的演讲和 Bengio 教授刚刚讨论的主题有关,但我的观点与他截然不同,后面再解释。

首先,欢迎来到“经验时代”(The Era of Experience),引用两句话来引出今天的核心观点:

第一句是,在 2009 年上映的纪录片《超越人类》(Transcendent Man)中,著名未来学家雷·库兹韦尔(Ray Kurzweil)提出:“智能是宇宙中最强大的现象”

第二句来自计算机科学奠基人艾伦·图灵(Alan Turing)。1947 年时候他说:“我们需要一台能够从经验中学习的机器。”当时,人工智能还根本不是一个正式的研究领域。

图灵的这句话意义重大,他强调机器应该像人类一样,从第一人称视角中积累经验并进行学习。这恰恰是今天所讨论的核心:AI 正在从“模仿人类”走向“经验世界”。

当前,AI 的发展依赖的是所谓的“人类数据”。也就是说,几乎所有的 AI 系统都是通过海量的人类生成文本和图像数据训练的。这些数据大多来源于互联网,随后再由专家进行微调,最后得到模型。

这些模型的目标是预测人类的下一个词,或标注数据的标签,而不是去真正理解和操控这个世界。

但这种方法已经逐渐逼近其性能上限。高质量的人类数据资源已经几乎被用到极限,而真正产生新知识的能力,是无法通过简单模仿人类实现的。

不是喂数据,是喂经验

如果我们希望 AI 拥有真正的创造力和适应能力,它必须进入一个全新的阶段,也就是“经验时代”。在这个阶段,AI 不再依赖固定的数据集,而是通过自身与外部世界的交互,从中获取经验并不断进化。

这里提到的经验,指的是来自 AI 自身感受器的输入,以及通过效应器与世界互动所获得的反馈。这是人类和动物学习的根本方式,也是智能成长的基础路径。

例如,在人类婴儿的学习过程中,婴儿通过和周围世界的互动逐渐认识这个世界。他会接触不同的玩具,然后探索它们能做什么。注意,婴儿在主动选择自己的学习内容,直到学到足够的信息,才转而学习下一个内容。

随着婴儿认知的发展,从每个对象中能够学到的内容也会随之变化。婴儿的行为方式变了,“经验结构”也随之改变。也就是说,行为塑造了经验,决定了婴儿要获取的数据。这种主动性至关重要。

再比如人或动物在运动、游戏、学习中不断获得经验。足球运动员的眼睛、耳朵和身体的各种感官同时接收着高速变化的信息。显然,信息量巨大,运动员无法关注一切,必须迅速做出决策,从而实现目标。

这正是经验的本质。对运动员、动物来说,经验就是一种高带宽的信息处理过程:在高速感知和快速反应中生存和成长。没有哲学意义上的“意识体验”那么复杂,经验在智能体和世界之间不断流动,输入感知、输出行为。

当然,经验的数据源是动态的,它取决于智能体自身的能力。当两个智能体博弈时,它们会变得更强大,彼此生成的数据也就越复杂、越有价值。

AlphaGo 的“第 37 手”之所以成为经典,就是因为它通过大量自我对弈获得了经验。这种经验是通过模拟无数走法、评估结果所获得的。因为围棋有规则,所以可以构建这样的“经验世界”。

AlphaProof 也类似。这个数学证明系统,在国际数学奥赛中取得了优异成绩。数学和围棋一样,也允许预测操作的后果,并进行长远推理,因此它也可以通过模拟积累经验。

最后我们来总结一下“经验型思维方式”:智能体通过与世界的信号交换形成经验,并基于经验学习。智能体对世界的全部认知,其实都建立在经验之上。哪怕直接给它一些知识,它理解这些知识的方式,最终也要回归到经验的解释框架中。毕竟,知识也是围绕经验建立的。

一个智能体的智能程度,取决于它能否理解和控制其内部信号,特别是它的奖励向量(reward vector)和控制机制。这就是AI应该关注的核心:智能的本质是经验,经验是一切智能的焦点和基础。

AI 近年来的发展经历了如上图所示的各个阶段。

第一阶段是模拟时代AlphaGo、Atari等系统是这个时代的代表 ,这些系统从模拟环境中学习经验。AlphaGo、AlphaZero 的成功,也向世界展示了经验驱动智能的巨大潜力。

第二阶段是人类数据时代,比如 GPT 等大语言模型。它们从人类生成的数据中学习,展现出强大的语言理解和表达能力。

而现在,我们正处在人类数据时代的尾声,即将进入第三阶段:真正的经验时代。AI 将通过与现实世界的交互来获取数据,不再只依赖人类提供的静态信息。可以从 AlphaProof 这样的系统窥见这种转变的苗头:当基于大语言模型构建的智能体开始拥有调用 API、与现实世界进行交互的能力时,“行为式智能”已在悄然萌芽。

去中心化合作:群体智能的下一挑战

在我看来,人工智能的未来充满希望。超级智能体和增强型超级智能人的出现,将为世界带来积极的正面影响。这一进程可能需要数十年,并将在之后的几十年持续演进,这是一场漫长的马拉松。

如今,我们正迈入一个以强化学习为核心的“经验时代”。然而,要真正释放这一时代的全部潜能,还需要更加先进的深度学习算法,这些算法必须具备持续学习和元学习的能力。

现在,我们从技术转向社会层面,讨论一些社会问题,这也回应了 Bengio 教授在演讲中提到的一些内容。

不妨思考一个根本性的问题:在一个由智能体组成的社会中,大家是否应该有同一个目标?

从强化学习的角度来看,答案自然是“不”,每个智能体都有自己的目标,它们的“奖励信号”是各不相同的。每个智能体都试图最大化自己的回报。

AI 如此,真实世界亦是如此。不同的智能体有不同的目标,这是自然规律。例如,所有动物都关注食物、生存,但一个动物的“食物”对另一个动物来说可能毫无价值,甚至可能是威胁。它们的目标显然并不相同。在人类社会中,我们都关心家庭、健康和安全,但这些目标也是个性化的。

再思考一下经济是如何运作的。之所以当前的经济体系运行得还不错,恰恰是因为人们拥有不同的目标和不同的能力。这些差异本身并不意味着冲突,反而是合作的基础。国家的运作也不依赖于所有人有相同的目标,而是依赖于人们各自追求自己的目标,并在过程中互相作用、协调合作。

所以我们要强调的核心信息是:即使个体追求的是不同的目标,我们依然可以和平共处,并开展分工、交换和互动。

为了进一步讨论这个问题,先定义以下术语:去中心化(decentralization):每个智能体都追求自己独立的目标;中心化(centralization):所有智能体都被约束在同一个目标之下,比如蜂群就是一个高度中心化的系统,所有个体服务于蜂群的整体目标。

而我们今天谈论的,是更类似人类社会的去中心化系统:每个个体拥有自己的目标和意愿。再来看“合作”的定义:合作是指不同目标的智能体通过互动实现彼此部分的目标。

例如,在经济活动中,交易就是一种典型的合作关系。可以说:去中心化 + 合作,是人类的“超级能力”。人类比其他动物更善于合作,其合作能力来自语言和货币,这两样东西在人类中是独一无二的。然而,人类最大的失败,其实往往源于合作的失败,比如战争、盗窃、腐败。

因此,需要提出的“去中心化合作”的视角,这种不同于传统制度设计的替代性方案,比中心化架构更优雅、更加鲁棒、可持续且更灵活。

去中心化合作更能抵御作弊者、边缘分子和异类的干扰。正如前所述,人类的合作能力远超其他动物,但必须承认,我们在合作方面表现很糟糕。战争、偷窃、腐败、诈骗等现象在提醒我们,合作不仅是一种能力,更是一项需要持续优化的挑战。

合作从来不是自动发生的,它至少需要两个值得信赖的智能体。而总会有一些不值得信任的人存在,例如:骗子、盗贼、武器制造商、独裁者,这些人也正因为“不合作”而获益。

合作需要制度来支撑,惩罚作弊者、制裁欺诈者、制衡掠夺者。这也意味着,中心化的权力机构可以在合作的早期阶段提供帮助,比如通过法律、监管和裁决机制来保障公平。与此同时,这些中心化结构也可能在长期中损害合作,因为一旦它们变得专制、僵化,制度本身就会演化成阻碍。

这就引出了当前时代最关键的张力:去中心化合作与中心化控制之间的冲突。这种张力在 AI 领域也体现得非常明显。

例如,有很多人主张“控制 AI”,限制它的目标设定能力,甚至呼吁暂停 AI 研究、减缓其发展速度,要求对 AI 技术设限、披露义务、能力管控……这正是中心化控制逻辑的典型表现。

控制 AI 的呼声,与控制人的呼声,在逻辑结构上是惊人地相似的。归根结底,这是关于“社会应该如何组织”的问题。但问题是,我们要接受个体目标的多样性,建立去中心化、合作性的秩序?还是转向以安全与恐惧为名的全面控制?

所有中心化控制的呼声,都建立在“恐惧”之上,即“我们与他们”之间的思维对立,在这种对立中,另一方总是被妖魔化,被描述为不可被信任的对象。现实是复杂的,每个社会中都有值得信赖的人,也都有不可被信赖的人。我们不能以偏概全,用对少数人的恐惧来抹杀对多数人潜在合作能力的信任。

AI 的未来也是如此,它的真正潜力在于去中心化合作。人类最伟大的力量,不是技术,而是合作。合作并不总是可能的,但它是一切美好事物的源泉。我们应该去理解合作、支持合作、制度化合作。

感谢大家的聆听,也感谢 Bengio 教授为我们提供了一个完全不同的视角。

相关内容

热门资讯

“美国现役海军陆战队正高度戒备... 当地时间6月7日,美国国防部长赫格塞思在社交媒体表示,洛杉矶发生的示威抗议活动是巨大的国家安全风险,...
下周2只新股申购 半导体细分龙...   根据目前的发行安排,下周有2只新股申购。   日程安排上,周二(6月10日)可申购沪市主板新股华...
江苏一高校院长调整 南京铁道职业技术学院官网“现任领导”一栏更新后显示,叶智锐已任该校党委副书记、院长。叶智锐  资料图...
上交所:推动上市公司进一步加大... 转自:经济日报上海证券交易所近日召开高分红重回报暨上市公司价值提升座谈会,就进一步提升高分红、高股息...
进度条刷新 新疆奇台射电110... 今天,新疆奇台110米口径全向可动射电望远镜项目土建主体工程完成封顶,项目正式转入设备安装与系统联调...
美防长称海军陆战队“处于高度戒... 转自:CCTV国际时讯当地时间6月7日,美国国防部长赫格塞思在社交媒体表示,美国洛杉矶发生的示威抗议...
机构激烈博弈热门板块 黄金珠宝... 转自:经济日报本周A股市场持续回暖,热点不断。最新龙虎榜数据显示,黄金珠宝、数字货币、新消费等热门概...
雷军今日发文:小米SU7 Ul... 小米创办人,董事长兼CEO雷军今日发文:小米SU7 Ultra即将入驻《Gran Turismo 7...
“昆仑山下古丽花”人民调解品牌... 记者从兵团司法局获悉,由十四师昆玉市司法局打造的“昆仑山下古丽花”人民调解品牌入选2024年《平安中...
考生请注意:明日午后北京将有分... 新京报讯 据气象北京消息,今天是高考第二天,晴朗少云的天气利于交通出行,午后西部山区有分散性雷阵雨,...
马斯克“越过红线”,美政府急寻... 突然之间,曾亲密无间的美国总统特朗普和亿万富翁马斯克“反目成仇”。特朗普威胁要取消太空探索技术公司(...
中国科学院等重磅专家参观考察广... 6月5日,中国科学院合肥等离子体物理研究所、上海电气核电设备有限公司一行11人赴广大特材参观考察,并...
具身智能下半场 :各路机器人发... 南方财经记者 石恩泽 深圳报道不同于上半年跳舞、炫技,下半年各家机器人开始在场景上做文章。6月7日,...
为您服务丨高温天气防暑攻略 遭遇高温天气如何做好防暑措施?一旦中暑,如何急救?哪些错误要避免?这份防暑攻略,您要知道!来源/中华...
批复同意!云南将扩建这些风电场 近日云南省发展和改革委员会作出批复同意建设楚雄州牟定县大尖峰风电场扩建项目昆明市石林县支锅山、双龙箐...
亏损加剧、商业化遇阻,氢燃料电... “我们现在的确很难,现在燃料电池企业都面临着比较严峻的挑战,一方面燃料电池企业造血能力较差,比较依赖...
注意!600221 筹划重大资... CAR-T疗法正在以惊人的速度改变癌症治疗市场版图,在医疗领域展现出巨大的发展潜力。6月6日晚,海航...
“坚决反对美方搞政治操弄” 我... 中国驻芝加哥总领馆发言人就中国学者被起诉走私危险菌种事表示,已就美方执法部门未能履行中美领事条约规定...
最新!多地公布查分时间 8日,2025年高考进入第二天,有省份将于今天结束全部考试。目前,湖南、湖北、江西、宁夏等地已经公布...
6家湘企既分红也送转 近140...   长沙晚报掌上长沙6月8日讯(全媒体记者 刘军)A股上市公司2024年年报利润分配进入密集落地阶段...