AI编程智能体通常存在一个明显缺陷:它们倾向于孤立地开展研究,在上下文窗口重置后,先前的实验数据和想法便会随之消失。这不仅造成大量Token浪费,还会导致模型重蹈覆辙、反复陷入同样的困境。
然而,来自中国人民大学高岭人工智能学院与微软研究院的数据科学家们认为,问题的根源并不在于模型本身,而在于整体架构的设计。为此,他们联合推出了Arbor——一种"持久性假设树"系统,旨在帮助智能体在漫长的研究过程中持续记忆并不断优化研究成果。
在这一架构中,一个长期运行的协调器负责统筹整棵树的研究策略,而多个短期执行器则会在独立的工作树中并行测试不同假设。随着实验结果不断回流,假设树持续更新,研究方向也随之收窄和细化。
实际测试表明,在相同资源预算下,Arbor在真实工程任务中的表现比标准AI编程智能体提升了两倍以上。
Info-Tech研究集团研究总监马哈茂德·拉明对此解释道:"Arbor能够随时间积累信息,允许智能体像人类一样在以往发现的基础上持续构建——通过学习、适应,并最终将过去所学付诸实践。"
Arbor的研发团队指出,单纯延长执行时间并不能保证研究取得进展。真正的挑战在于如何维护一种状态,能够将大量独立尝试转化为"累积式假设优化"。
此外,研究团队强调,研究进展不应依赖人工监督者频繁介入来指示下一步方向或解读历次实验的意义。要实现真正的自主性,智能体研究框架必须能够在时间维度上持续维系实验、数据、结果与失败之间的关联。
Arbor的设计围绕三项核心系统要求展开:
第一,系统必须支持分支,以便子树能够同时测试多个具有潜力的竞争性假设。与此同时,无限制的分支扩展可能导致框架失控,因此必须加以约束,确保整体有序。研究团队将此称为"有序分支"。
第二,系统基础设施必须将局部执行与整体策略分离。测试单一假设需要执行编辑、调试、评估等短周期任务,但这些操作不应干扰或遮蔽基于全局实验结果所做出的宏观决策。
第三,系统必须能够区分探索性改进与经过验证的改进,从而防止AI在试错过程中出现过拟合现象,而非从底层规律中迭代学习。
持久性是Arbor的核心所在。假设树将假设与想法、用于测试的代码或配置产物、实验证据(结果与指标),以及提炼出的洞见(例如"这个数据过滤器有效,但这个学习率调度器无效")全部关联在一起。
项目启动后,短期工作树负责运行代码、记录工作过程并收集指标。其上方的长期协调器则充当实际意义上的研究负责人,持续监控整个过程,更新节点,筛选"有前景的叶节点",剪除或合并分支,传播可复用的经验,并决定下一步优先探索哪些假设。
Arbor的构建者写道:"因此,假设树是系统的运行研究状态,它同时兼具搜索前沿、历史尝试记忆,以及验证过产物改进的审计轨迹三重功能。"
为验证这一机制的有效性,研究团队在自主优化场景下对Arbor进行了评测:智能体被赋予一个初始研究产物(数据管道、测试套件或训练脚本),并在无人工干预的前提下,通过迭代实验提升其"留出集性能"。留出集性能是机器学习中的一项评估指标,用于衡量模型对未见数据的泛化能力。
基于树结构的架构在多个真实研究任务中接受了测试,涵盖模型训练(提升训练方案与超参数的能力)、测试套件工程(升级评估或训练套件的能力)以及数据合成(为训练或评估生成更优质数据的能力)。
最终结果显示,在相同资源预算下,Arbor在留出集增益方面的表现比Codex和Claude Code的平均水平高出2.5倍。
研究人员由此得出结论:维护一棵结构化、持续演化的假设树,比以"无记忆"方式运行同款编程智能体能够带来更显著的性能提升。
Info-Tech的拉明指出,Arbor最具创新性的特点在于其维护智能体记忆、保留历次尝试和假设相关数据的能力,并表示"下一代自主智能体的关键,或许在于随时间积累证据的能力。"
然而,他也指出,这同样引发了对大规模健壮研究环境可审计性的担忧。"随着自主智能体在无人监督下完成工作的能力不断增强,企业将需要对智能体采取特定行动或得出特定结论的方式与原因保持透明度。"
Q&A
Q1:Arbor是什么?它是如何工作的?
A:Arbor是由中国人民大学高岭人工智能学院与微软研究院联合提出的"持久性假设树"系统。它通过一个长期运行的协调器统筹研究策略,并由多个短期执行器在独立工作树中并行测试不同假设。随着实验结果不断回流,假设树持续更新,从而帮助AI编程智能体在长时间研究过程中保持记忆、积累经验,避免重复犯错。
Q2:Arbor的性能表现如何?与现有工具相比如何?
A:在相同资源预算下,Arbor在真实工程任务中的表现比标准AI编程智能体提升了两倍以上。具体而言,Arbor在留出集增益方面的表现比Codex和Claude Code的平均水平高出2.5倍,测试范围涵盖模型训练、测试套件工程和数据合成等多个真实研究任务。
Q3:Arbor在大规模应用中面临哪些挑战?
A:主要挑战在于可审计性问题。随着Arbor等自主智能体在无人监督下完成工作的能力不断增强,企业需要对智能体采取特定行动或得出特定结论的方式与原因保持透明度。此外,无限制的分支扩展可能导致框架失控,因此系统必须在支持多路并行假设探索的同时,保持整体结构的有序性。