构建可靠AI智能体的幕后工作
创始人
2026-01-22 22:48:24

当你询问AI开发者智能体能为你做什么时,答案往往听起来像旅游手册:预订航班、找酒店、规划暑假。这是一个迷人的画面——一个无形的礼宾员在你喝咖啡时轻松地为你安排行程。

但在亚马逊内部,研究人员深知,在大事成就之前,必须先解决成千上万的小问题。举个例子:在AI能规划假期之前,它必须先学会滚动页面。

真的是字面意思。

它必须学会滚动...点击...切换标签...选择隐藏在弹窗后面的日期...在表单静默重置时恢复...区分日历组件和下拉菜单...准确地重新输入字段而不覆盖其他内容...导航自2004年以来就没有重新设计过的会员门户。

一个简单的"预订我的暑假"命令会在各种旅游服务中触发数百个微交互:仍在运行几十年前界面的航空预订系统;使用模式不一致的酒店库存工具;信用卡验证层;会员计划;支付系统;移动确认;以及隐藏在基于浏览器表单后面的合规检查。每一个微小动作都必须成功——可靠地、确定性地、每次都成功——神奇的消费者体验才能实现。这就是AI智能体叙事与构建现实之间的差距。

在亚马逊,这些平凡的细节不是事后考虑,而是基础。要在现实世界中成功运作,智能体必须首先掌握一套原子行为。在内部,我们有时将此描述为构建"标准化智能体":训练系统在非常简单、非常无聊但支撑真实软件可靠运行的交互中表现出色。

掌握这些原子行为需要大量练习,这就是为什么亚马逊通用人工智能实验室正在构建高保真强化学习"健身房"生态系统,让智能体可以磨练技能。就像运动员通过在受控条件下重复基本动作来建立核心稳定性一样,智能体通过在可重复的、仪器化场景中练习最小的交互单元来发展可靠性。

健身房的设计反映了真实网络系统的混乱性,它隔离技能、变化技能、测试技能并测量技能。最终结果是一个智能体基底——一个共享的能力基础,智能体群体可以在真实世界应用中构建特定领域的效率:使地址可用于配送或预订的表单完成;指示费用、福利或选项是否适用的下拉选择;以及保证交易达到有效、可验证最终状态的多步骤工作流。

如今,亚马逊AGI实验室已经在涵盖数十个应用领域和数千个单独任务的健身房中构建和训练了智能体,更多还在开发中。这些健身房不仅教会智能体如何预订假期;它们教会智能体如何在任务下方的不可预测地形中生存。如何推理网络界面。如何检测和从错误中恢复。如何与人类可以容忍但机器经常误解的遗留系统交互。要构建一个能做人类在计算机上所做一切的智能体,我们的团队必须教它处理人类本能导航的模糊性。

从自动驾驶汽车的经验中学习

如果智能体预订暑假的路径要经过数百个微小的、容易失败的步骤,那么载我们到机场的自动驾驶汽车面临的环境则更加严酷。所以亚马逊AGI实验室内的一些工程师和研究人员来自自动驾驶汽车领域并非偶然。他们在"几乎正确"与"不安全"无法区分的环境中工作了多年,在这种环境中,一个瞬间完美执行但下一刻静默失败的系统是不适合部署的。在自动驾驶车辆中,正确性不是概率性的;系统必须每次都正确。

这种思维模式现在塑造了我们实验室处理智能体AI的方式。智能体不只是产生输出;它们在活跃系统内采取行动。它们触及数据库、启动交易并修改系统状态。当模型的输出是世界中的真实变化时,可靠性变得不可协商。

为了达到这个标准,智能体必须做大语言模型无法做到的事情:确定系统是否正确响应了其动作。这不意味着智能体固有地知道正确性;这意味着训练环境暴露足够的真实情况——文档对象模型结构、UI时序、网络行为、后端状态转换——让智能体比较它试图做的与实际发生的,并在结果模糊或需要批准时升级或推迟给人类。

这就是形式验证器的用武之地。健身房内的每个任务都由一个规范锚定,该规范精确定义成功完成的样子。它描述所需的最终状态、允许产生它的后端更改以及永远不能发生的更改。例如,"发送电子邮件"这样的工作流不仅仅因为按钮看起来被点击了就被宣布成功;它被宣布成功是因为数据库中恰好存在一条新的电子邮件记录,并且没有无关记录被创建、修改或删除。

在我们的强化学习健身房中,这些验证器是评分函数的基础。智能体只有在环境反映出准确允许的更改且没有禁止的更改时才会获得奖励,这提供了关于"正确"意味着什么的信号。

智能体必须在变化的时序、网络和UI条件下不是一次而是数千次满足这些验证器。这种重复暴露——在精确设计的强化学习健身房内隔离技能、变化条件并强制可验证结果——将孤立的成功转化为持久的能力。只有当智能体达到近乎完美可靠性的标准时,才能被信任运行真实工作流。只有这样,它才能在生产环境中安全运行,在那里每个动作都有后果。

微技能训练实例

仔细观察任何真实世界的工作流,你会发现一系列必须完美执行的微小任务。这些是我们强化学习健身房内的标准化训练:集中的练习程序,智能体在其中学习使大事成就的小事。以下是几个例子:

构建对不一致UI组件的鲁棒性

在日历应用程序中,即使选择日期也需要令人惊讶的协调。在整个网络中,日历以微妙不同的方式行为:元素在缩放时移位,小部件隐藏在其他UI层后面或在点击过程中重新渲染。在强化学习健身房中,这些变化有意出现,教导智能体识别小部件的当前状态,在其漂移时恢复,并准确提交正确的日期一次——然后验证结果后端状态是否正确。这个基础技能适用于各处的工作流,从旅行预订到调度工具到合规应用程序。

学习区分UI外观与系统状态

下拉菜单可能看起来已经更新,但后端实际上还没有处理更改。这种不匹配出现在企业应用程序、消费者门户和政府系统中。智能体必须确认系统——而不仅仅是UI——已经注册了动作。训练建立纪律:信任系统状态,而不是表面。

在长期、时序敏感的流程中保持一致性

许多工作流涉及异步步骤的长链——搜索、过滤、验证、刷新——每个都有不同的时序和失败模式。强化学习健身房将这些流程分解为原子段:与自动建议列表竞争的文本字段、无序加载的模态窗口、间歇性返回错误的后端,以及在填充之前构建的页面。智能体学会耐力——在数十或数百个步骤中与系统的真实状态保持一致。

Q&A

Q1:什么是"标准化智能体"?

A:"标准化智能体"是指专门训练在非常简单、看似无聊但对真实软件可靠运行至关重要的交互中表现出色的系统。这些智能体掌握诸如滚动、点击、选择日期等基本原子行为,为处理复杂现实世界任务奠定基础。

Q2:亚马逊AGI实验室的强化学习健身房如何工作?

A:强化学习健身房是高保真的训练环境,旨在反映真实网络系统的复杂性。它们隔离特定技能,在变化条件下进行测试,并通过形式验证器测量成果。智能体在这些受控环境中反复练习,直到能够可靠地执行任务。

Q3:为什么AI智能体需要学会处理遗留系统?

A:现实世界中充满了使用几十年前界面的系统,如航空预订系统、酒店库存工具等。这些系统的界面不一致、时序复杂,人类可以容忍但机器容易误解。智能体必须学会在这些不可预测的环境中导航和恢复,才能在真实世界中可靠运行。

相关内容

热门资讯

多部门部署规范招商引资 “反内... 纵深建设全国统一大市场、深入整治“内卷式”竞争,正迎来密集的政策部署。与以往不同,此次并非单纯的行政...
128场比赛看个过瘾   本报讯 “第35届国际乒联-亚乒联盟亚洲杯”(以下简称“海口亚洲杯”)将于2月4日至2月8日在海...
最新或2023(历届)幼儿园幼... 孩子对入学的态度、情感、响应与适应计算将直接影响其能否尽快地适应小学生活。下是太阳教育网为大家整理的...
最新或2023(历届)建党95... 今年“七一”迎来了中国共产党建党九十五周年纪念,在这个重要纪念日来临之际,开展党日活动是非常必要的。...
学校庆祝七一建党95周年活动总...   最新或2023(历届)7月1日,我们即将迎来党的95周年华诞,95年光辉历程,95年丰功伟绩,值...