ICML 2025 | 多智能体的ChatGPT时刻？上交MAS-GPT实现工作流一键生成_热点

ICML 2025 | 多智能体的ChatGPT时刻？上交MAS-GPT实现工作流一键生成

创始人

2025-07-05 11:11:18

0次

（转自：机器之心）

本文第一作者叶锐，上海交通大学博士三年级，研究方向是大模型多智能体，联邦学习，博士导师陈思衡，上海交通大学人工智能学院副教授。

OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样，处理复杂任务并协调大规模运作。多智能体系统（Multi-Agent Systems, MAS）正是实现这一目标的重要探索方向。

然而，构建能够支撑这种复杂智能的 MAS 并非易事，研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战……

如今，一种全新的方法出现了，由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT，正式提出：生成式 MAS 设计范式，只需一句 Query，就能 “一键生成” 一套可执行、组织清晰的 MAS！

这意味着，构建 MAS 变得 “像与 ChatGPT 聊天一样简单，一个问题直出完整多智能体系统”！MAS-GPT，正努力让这条通往 AGI 第五阶段的道路，变得更加平坦和高效。

该工作 “MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems” 发表于国际机器学习大会 ICML 2025。

论文链接：https://arxiv.org/abs/2503.03686
代码链接：https://github.com/MASWorks/MAS-GPT
模型链接：https://huggingface.co/MASWorks/MAS-GPT-32B

生成式 MAS 设计：

一句话输入，自动生成 MAS

现有 MAS 方法（如 ChatDev、DyLAN、AFlow 等）虽强大，但存在三个根本问题：

无适应性：MAS 结构与提示词高度依赖人工，毫无适应性；
成本高昂：依赖多轮 LLM 调用来设计 MAS，成本完全顶不住；
泛化性低：依赖于测试集对应的验证集进行优化，泛化性堪忧。

这些问题严重阻碍了 MAS 的广泛应用。以当前处理大规模并发用户请求的类 ChatGPT 交互系统为例，若其底层架构采用现有 MAS 范式，其可扩展性与鲁棒性将无法满足服务需求。

MAS-GPT 如何破局？答案是：

将 “设计 MAS” 彻底转变为一个语言生成任务！输入你的 Query，输出就是一套可直接运行的多智能体系统！

这套生成的 MAS，完全由 Python 代码优雅呈现：

Agent 的提示词：Python 变量，清晰明了
Agent 产生回应：LLM 调用函数，智能核心
Agent 间的交互：字符串拼接，简洁高效
Agent 工具调用：Python 函数，扩展无限

从此，MAS 不再 “人写”，而是 “模型写”！

如何教 LLM “设计 MAS”？

MAS-GPT 的训练不是靠死记硬背，而是通过设计精巧的数据构造流程，让模型学会 “针对什么样的 Query，设计什么样的 MAS”。

四步构建高质量训练数据：

1. 数据池构建（Pool Construction）：广泛收集覆盖数学、代码、通用问答等多领域的 Query，并汇集 40 + 种基础 MAS 代码结构；

2. 数据对评估（Pair Evaluation）：对每一个 “Query-MAS” 组合进行细致的自动化评估与标注

3. 数据对选择（Pair Selection）：根据跨组一致性（Inter-consistency）原则，将相似的 Query 统一匹配到表现最好的 MAS；

4. 数据对精修（Pair Refinement）：根据组内一致性（Intra-consistency）原则，借助大模型改写 MAS、添加推理解释，使其与 Query 逻辑高度贴合。

最终得到了 11K 条高质量数据样本，通过一次简单的监督微调（SFT）开源模型，便训练得到了 MAS-GPT。

有了 MAS-GPT，多智能体系统的推理过程变得前所未有地简单。

用户抛出一个 Query，MAS-GPT 一次调用生成专属 MAS；该 MAS 立即执行并返回答案给用户，一步到位。

多项实验证明：

MAS-GPT 不仅灵巧，还很强！

MAS-GPT 的设计目标非常明确：一轮 LLM 推理即可生成任务适配的 MAS。实验结果也不负众望。

研究团队在 8 个基准任务 × 5 种主流模型上，系统对比了 10 多种现有方法，结果显示，MAS-GPT：

更准：MAS-GPT 平均准确率全面领先，对比当前最强基线提升 3.89%！
更泛化：即使在训练时未见过的任务（如 GPQA、SciBench）上也保持稳健表现！

更省：在推理过程中，MAS-GPT 可以在几乎 0.5 倍推理成本下，跑出比 DyLAN、GPTSwarm 等更好的效果！

兼容性强：MAS-GPT 生成的 MAS，无论用哪种 LLM 驱动，都能带来一致的性能提升！这意味着它具有极佳的 “兼容性” 和 “普适性”。

还能进一步拓展推理大模型的能力边界

MAS-GPT 生成的 MAS 不仅适用于 Chatbot LLM，还能用来辅助更强的 Reasoner LLM 推理。

使用 OpenAI o1 和 DeepSeek-R1 等强推理模型 + MAS-GPT 结构，在 AIME-2024 数学挑战上：

o1 + MAS-GPT 提升了 13.3%
DeepSeek-R1 + MAS-GPT 提升了 10.0%

MAS-GPT 真正具备将强模型 “组织起来干活” 的能力！

MAS-GPT 的训练阶段的延展性和发展潜力！

除了在性能、适用性和使用友好上具有一定优势外，MAS-GPT 的训练阶段的参数规模也有很大的探索空间，反应出极大的发展潜力！

不止会 “套模板”，还能生成新结构！

通过深入的可视化分析，研究团队发现 MAS-GPT 远不止会 “套模板” 那么简单：

能够自动生成新颖的 MAS
面对从未见过的任务，依然能给出合理的 agent 分工与协作方式
为每个 MAS 附上推理说明，解释 “为什么这样设计”

真正做到了：不是背答案，而是学会设计！

MAS-GPT 未来愿景

MAS-GPT 提出了一个前所未有的思路：“为每个 Query 自动生成一个 MAS”。理论上，领域内所有多智能体系统，都有可能被整合进 MAS-GPT 的训练数据中。这意味着，MAS-GPT 能够站在巨人的肩膀上，博采众长，不断进化，生成越来越精妙、越来越强大的 MAS。

正如 LLM 的发展路径所示，随着基座模型能力的持续增强和数据质量与多样性的不断丰富，MAS-GPT 的未来也将不断进化。

或许在不久的将来，与你智能交互的不再仅仅是一个 Chatbot，而是一个强大的 MAS-GPT。它会洞悉你的每一个问题，为你量身打造最合适的智能系统 —— 无论是简洁的单 Agent，还是结构精巧的多 Agent 协作网络。

MASWorks 大模型多智能体开源社区

MAS-GPT 也是最近刚发起的大模型多智能体开源社区 MASWorks 的拼图之一。MASWorks 社区致力于连接全球研究者，汇聚顶尖智慧，旨在打造一个开放、协作的平台，共同分享、贡献知识，推动多智能体系统（MAS）领域的蓬勃发展。

作为社区启动的首个重磅活动，MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop：MAS-2025！

MASWorks 社区期待全球广大智能体开发者和研究人员的贡献与参与。一方面贡献您的智慧和代码，获得更多曝光机会；另一方面，结识志同道合的伙伴，拓展您的学术网络，互帮互助，共同探讨，碰撞思想，共同塑造 MAS 的未来！

MASWorks 地址：https://github.com/MASWorks
MAS-2025 地址：https://mas-2025.github.io/MAS-2025/

上一篇：投资期货巨亏未及时披露！上市公司、董事长被立案

下一篇：相识13天闪婚，4个月后妻子车祸去世，丈夫：没有骗保，知道她患癌仍决定结婚

ICML 2025 | 多智能体的ChatGPT时刻？上交MAS-GPT实现工作流一键生成

相关内容

热门资讯