(转自:机器之心)
本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工智能学院副教授。
OpenAI 将 “组织级智能 (Organizational AI)” 设定为通向 AGI 的第五个重要阶段 —— 期待 AI 能像一个高效协作的组织那样,处理复杂任务并协调大规模运作。多智能体系统(Multi-Agent Systems, MAS)正是实现这一目标的重要探索方向。
然而,构建能够支撑这种复杂智能的 MAS 并非易事,研究者们常面临结构繁多、Prompt 调试耗时、难以解决通用任务等挑战……
如今,一种全新的方法出现了,由上海交通大学人工智能学院、上海人工智能实验室、牛津大学等机构联合推出的 MAS-GPT,正式提出:生成式 MAS 设计范式,只需一句 Query,就能 “一键生成” 一套可执行、组织清晰的 MAS!
这意味着,构建 MAS 变得 “像与 ChatGPT 聊天一样简单,一个问题直出完整多智能体系统”!MAS-GPT,正努力让这条通往 AGI 第五阶段的道路,变得更加平坦和高效。
该工作 “MAS-GPT: Training LLMs to Build LLM-based Multi-Agent Systems” 发表于国际机器学习大会 ICML 2025。
论文链接:https://arxiv.org/abs/2503.03686
代码链接:https://github.com/MASWorks/MAS-GPT
模型链接:https://huggingface.co/MASWorks/MAS-GPT-32B
生成式 MAS 设计:
一句话输入,自动生成 MAS
现有 MAS 方法(如 ChatDev、DyLAN、AFlow 等)虽强大,但存在三个根本问题:
无适应性:MAS 结构与提示词高度依赖人工,毫无适应性;
成本高昂:依赖多轮 LLM 调用来设计 MAS,成本完全顶不住;
泛化性低:依赖于测试集对应的验证集进行优化,泛化性堪忧。
这些问题严重阻碍了 MAS 的广泛应用。以当前处理大规模并发用户请求的类 ChatGPT 交互系统为例,若其底层架构采用现有 MAS 范式,其可扩展性与鲁棒性将无法满足服务需求。
MAS-GPT 如何破局?答案是:
将 “设计 MAS” 彻底转变为一个语言生成任务!输入你的 Query,输出就是一套可直接运行的多智能体系统!
这套生成的 MAS,完全由 Python 代码优雅呈现:
Agent 的提示词:Python 变量,清晰明了
Agent 产生回应:LLM 调用函数,智能核心
Agent 间的交互:字符串拼接,简洁高效
Agent 工具调用:Python 函数,扩展无限
从此,MAS 不再 “人写”,而是 “模型写”!
如何教 LLM “设计 MAS”?
MAS-GPT 的训练不是靠死记硬背,而是通过设计精巧的数据构造流程,让模型学会 “针对什么样的 Query,设计什么样的 MAS”。
四步构建高质量训练数据:
1. 数据池构建(Pool Construction):广泛收集覆盖数学、代码、通用问答等多领域的 Query,并汇集 40 + 种基础 MAS 代码结构;
2. 数据对评估(Pair Evaluation):对每一个 “Query-MAS” 组合进行细致的自动化评估与标注
3. 数据对选择(Pair Selection):根据跨组一致性(Inter-consistency)原则,将相似的 Query 统一匹配到表现最好的 MAS;
4. 数据对精修(Pair Refinement):根据组内一致性(Intra-consistency)原则,借助大模型改写 MAS、添加推理解释,使其与 Query 逻辑高度贴合。
最终得到了 11K 条高质量数据样本,通过一次简单的监督微调(SFT)开源模型,便训练得到了 MAS-GPT。
有了 MAS-GPT,多智能体系统的推理过程变得前所未有地简单。
用户抛出一个 Query,MAS-GPT 一次调用生成专属 MAS;该 MAS 立即执行并返回答案给用户,一步到位。
多项实验证明:
MAS-GPT 不仅灵巧,还很强!
MAS-GPT 的设计目标非常明确:一轮 LLM 推理即可生成任务适配的 MAS。实验结果也不负众望。
研究团队在 8 个基准任务 × 5 种主流模型上,系统对比了 10 多种现有方法,结果显示,MAS-GPT:
更准:MAS-GPT 平均准确率全面领先,对比当前最强基线提升 3.89%!
更泛化:即使在训练时未见过的任务(如 GPQA、SciBench)上也保持稳健表现!
更省:在推理过程中,MAS-GPT 可以在几乎 0.5 倍推理成本下,跑出比 DyLAN、GPTSwarm 等更好的效果!
兼容性强:MAS-GPT 生成的 MAS,无论用哪种 LLM 驱动,都能带来一致的性能提升!这意味着它具有极佳的 “兼容性” 和 “普适性”。
还能进一步拓展推理大模型的能力边界
MAS-GPT 生成的 MAS 不仅适用于 Chatbot LLM,还能用来辅助更强的 Reasoner LLM 推理。
使用 OpenAI o1 和 DeepSeek-R1 等强推理模型 + MAS-GPT 结构,在 AIME-2024 数学挑战上:
o1 + MAS-GPT 提升了 13.3%
DeepSeek-R1 + MAS-GPT 提升了 10.0%
MAS-GPT 真正具备将强模型 “组织起来干活” 的能力!
MAS-GPT 的训练阶段的延展性和发展潜力!
除了在性能、适用性和使用友好上具有一定优势外,MAS-GPT 的训练阶段的参数规模也有很大的探索空间,反应出极大的发展潜力!
不止会 “套模板”,还能生成新结构!
通过深入的可视化分析,研究团队发现 MAS-GPT 远不止会 “套模板” 那么简单:
能够自动生成新颖的 MAS
面对从未见过的任务,依然能给出合理的 agent 分工与协作方式
为每个 MAS 附上推理说明,解释 “为什么这样设计”
真正做到了:不是背答案,而是学会设计!
MAS-GPT 未来愿景
MAS-GPT 提出了一个前所未有的思路:“为每个 Query 自动生成一个 MAS”。理论上,领域内所有多智能体系统,都有可能被整合进 MAS-GPT 的训练数据中。这意味着,MAS-GPT 能够站在巨人的肩膀上,博采众长,不断进化,生成越来越精妙、越来越强大的 MAS。
正如 LLM 的发展路径所示,随着基座模型能力的持续增强和数据质量与多样性的不断丰富,MAS-GPT 的未来也将不断进化。
或许在不久的将来,与你智能交互的不再仅仅是一个 Chatbot,而是一个强大的 MAS-GPT。它会洞悉你的每一个问题,为你量身打造最合适的智能系统 —— 无论是简洁的单 Agent,还是结构精巧的多 Agent 协作网络。
MASWorks 大模型多智能体开源社区
MAS-GPT 也是最近刚发起的大模型多智能体开源社区 MASWorks 的拼图之一。MASWorks 社区致力于连接全球研究者,汇聚顶尖智慧,旨在打造一个开放、协作的平台,共同分享、贡献知识,推动多智能体系统(MAS)领域的蓬勃发展。
作为社区启动的首个重磅活动,MASWorks 将在 ICML 2025 举办聚焦大语言模型多智能体的 Workshop:MAS-2025!
MASWorks 社区期待全球广大智能体开发者和研究人员的贡献与参与。一方面贡献您的智慧和代码,获得更多曝光机会;另一方面,结识志同道合的伙伴,拓展您的学术网络,互帮互助,共同探讨,碰撞思想,共同塑造 MAS 的未来!
MASWorks 地址:https://github.com/MASWorks
MAS-2025 地址:https://mas-2025.github.io/MAS-2025/