ICML 2025 | 多智能体的ChatGPT时刻?上交MAS-GPT实现工作流一键生成
创始人
2025-07-05 11:11:18
0

(转自:机器之心)

本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。

OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。多智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。

然而,构建能够支撑这种复杂智能的 MAS 并非易事,研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战……

如今,一种全新的方法出现了,由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT,正式提出:生成式 MAS 设计范式只需一句 Query,就能 “一键生成” 一套可执行、组织清晰的 MAS!

这意味着,构建 MAS 变得 “像与 ChatGPT 聊天一样简单,一个问题直出完整多智能体系统”!MAS-GPT,正努力让这条通往 AGI 第五阶段的道路,变得更加平坦和高效。

该工作 “MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems” 发表于国际机器学习大会 ICML 2025

  • 论文链接:https://arxiv.org/abs/2503.03686

  • 代码链接:https://github.com/MASWorks/MAS-GPT

  • 模型链接:https://huggingface.co/MASWorks/MAS-GPT-32B

生成式 MAS 设计:

一句话输入,自动生成 MAS

现有 MAS 方法(如 ChatDev、DyLAN、AFlow 等)虽强大,但存在三个根本问题:

  • 无适应性:MAS 结构与提示词高度依赖人工,毫无适应性;

  • 成本高昂:依赖多轮 LLM 调用来设计 MAS,成本完全顶不住;

  • 泛化性低:依赖于测试集对应的验证集进行优化,泛化性堪忧。

这些问题严重阻碍了 MAS 的广泛应用。以当前处理大规模并发用户请求的类 ChatGPT 交互系统为例,若其底层架构采用现有 MAS 范式,其可扩展性与鲁棒性将无法满足服务需求。

MAS-GPT 如何破局?答案是:

将 “设计 MAS” 彻底转变为一个语言生成任务!输入你的 Query,输出就是一套可直接运行的多智能体系统!

这套生成的 MAS,完全由 Python 代码优雅呈现:

  • Agent 的提示词:Python 变量,清晰明了

  • Agent 产生回应:LLM 调用函数,智能核心

  • Agent 间的交互:字符串拼接,简洁高效

  • Agent 工具调用:Python 函数,扩展无限

从此,MAS 不再 “人写”,而是 “模型写”!

如何教 LLM “设计 MAS”?

MAS-GPT 的训练不是靠死记硬背,而是通过设计精巧的数据构造流程,让模型学会 “针对什么样的 Query,设计什么样的 MAS”。

四步构建高质量训练数据:

1. 数据池构建(Pool Construction):广泛收集覆盖数学、代码、通用问答等多领域的 Query,并汇集 40 + 种基础 MAS 代码结构;

2. 数据对评估(Pair Evaluation):对每一个 “Query-MAS” 组合进行细致的自动化评估与标注

3. 数据对选择(Pair Selection):根据跨组一致性(Inter-consistency)原则,将相似的 Query 统一匹配到表现最好的 MAS;

4. 数据对精修(Pair Refinement):根据组内一致性(Intra-consistency)原则,借助大模型改写 MAS、添加推理解释,使其与 Query 逻辑高度贴合。

最终得到了 11K 条高质量数据样本,通过一次简单的监督微调(SFT)开源模型,便训练得到了 MAS-GPT。

有了 MAS-GPT,多智能体系统的推理过程变得前所未有地简单。

用户抛出一个 Query,MAS-GPT 一次调用生成专属 MAS;该 MAS 立即执行并返回答案给用户,一步到位。

多项实验证明:

MAS-GPT 不仅灵巧,还很强!

MAS-GPT 的设计目标非常明确:一轮 LLM 推理即可生成任务适配的 MAS。实验结果也不负众望。

研究团队在 8 个基准任务 × 5 种主流模型上,系统对比了 10 多种现有方法,结果显示,MAS-GPT:

  • 更准:MAS-GPT 平均准确率全面领先,对比当前最强基线提升 3.89%

  • 更泛化:即使在训练时未见过的任务(如 GPQA、SciBench)上也保持稳健表现!

  • 更省:在推理过程中,MAS-GPT 可以在几乎 0.5 倍推理成本下,跑出比 DyLAN、GPTSwarm 等更好的效果!

  • 兼容性强:MAS-GPT 生成的 MAS,无论用哪种 LLM 驱动,都能带来一致的性能提升!这意味着它具有极佳的 “兼容性” 和 “普适性”。

还能进一步拓展推理大模型的能力边界

MAS-GPT 生成的 MAS 不仅适用于 Chatbot LLM,还能用来辅助更强的 Reasoner LLM 推理。

使用 OpenAI o1 和 DeepSeek-R1 等强推理模型 + MAS-GPT 结构,在 AIME-2024 数学挑战上:

  • o1 + MAS-GPT 提升了 13.3%

  • DeepSeek-R1 + MAS-GPT 提升了 10.0%

MAS-GPT 真正具备将强模型 “组织起来干活” 的能力!

MAS-GPT 的训练阶段的延展性和发展潜力!

除了在性能、适用性和使用友好上具有一定优势外,MAS-GPT 的训练阶段的参数规模也有很大的探索空间,反应出极大的发展潜力!

不止会 “套模板”,还能生成新结构!

通过深入的可视化分析,研究团队发现 MAS-GPT 远不止会 “套模板” 那么简单:

  • 能够自动生成新颖的 MAS

  • 面对从未见过的任务,依然能给出合理的 agent 分工与协作方式

  • 为每个 MAS 附上推理说明,解释 “为什么这样设计”

真正做到了:不是背答案,而是学会设计!

MAS-GPT 未来愿景

MAS-GPT 提出了一个前所未有的思路:“为每个 Query 自动生成一个 MAS”。理论上,领域内所有多智能体系统,都有可能被整合进 MAS-GPT 的训练数据中。这意味着,MAS-GPT 能够站在巨人的肩膀上,博采众长,不断进化,生成越来越精妙、越来越强大的 MAS。

正如 LLM 的发展路径所示,随着基座模型能力的持续增强和数据质量与多样性的不断丰富,MAS-GPT 的未来也将不断进化。

或许在不久的将来,与你智能交互的不再仅仅是一个 Chatbot,而是一个强大的 MAS-GPT。它会洞悉你的每一个问题,为你量身打造最合适的智能系统 —— 无论是简洁的单 Agent,还是结构精巧的多 Agent 协作网络。

MASWorks 大模型多智能体开源社区

MAS-GPT 也是最近刚发起的大模型多智能体开源社区 MASWorks 的拼图之一。MASWorks 社区致力于连接全球研究者,汇聚顶尖智慧,旨在打造一个开放、协作的平台,共同分享、贡献知识,推动多智能体系统(MAS)领域的蓬勃发展。

作为社区启动的首个重磅活动,MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop:MAS-2025!

MASWorks 社区期待全球广大智能体开发者和研究人员的贡献与参与。一方面贡献您的智慧和代码,获得更多曝光机会;另一方面,结识志同道合的伙伴,拓展您的学术网络,互帮互助,共同探讨,碰撞思想,共同塑造 MAS 的未来!

  • MASWorks 地址:https://github.com/MASWorks

  • MAS-2025 地址:https://mas-2025.github.io/MAS-2025/

相关内容

热门资讯

卫健委:请大家不要轻信“网红医... 卫健委近期特别提醒大家,切勿轻信“网红医生”。在当今信息时代,一些所谓的“网红医生”凭借网络热度获得...
日本大地震预言时间点已过:没震 日本大地震预言时间点已过,然而并未如预言般发生地震。这一现象再次提醒我们,对于所谓的“大地震预言”应...
(文化中国行)百年粤韵越重洋:... 来源:中国新闻网 中新社梧州7月5日电 题:百年粤韵越重洋:古韵添新声 一曲解乡愁作者 张广权“相舞...
全国多地变身“桑拿房”?网友:... 转自:全国妇联女性之声眼下,今年以来最强高温过程正在影响我国。7月1日~7日,全国十余省份一起“蒸桑...
资讯很有聊丨俄罗斯正式承认阿富... 俄官方近日证实,俄罗斯已正式承认阿富汗临时政府。这是自2021年8月阿富汗塔利班重新掌权以来,第一个...