近期,美国明尼苏达大学与伊利诺伊大学芝加哥分校等联合团队提出并实现了一个名为 InfantAgent-Next 的通用型多模态智能体系统,其能够通过文字、图像、音频等方式与计算机进行自动化交互。
它的核心创新在于,打破了现有系统普遍采用的“单一依赖”模式(或依赖工具,或依赖视觉模型),转而采用高度模块化的混合式架构。
目前,研究团队已在多个真实交互任务中验证了 InfantAgent-Next 的有效性,包括办公软件操作、网页编辑、音频理解等任务场景,性能超过了多个现有基线。例如,在 OSWorld 任务中准确率达到 35.3%,超过了 Claude 计算机代理等系统。
此外,他们还开源了完整代码与评估脚本,希望推动社区进一步研究真正可落地的多模态通用智能体。
近日,相关论文以《InfantAgent-Next:多模态通用代理的计算机自动交互技术》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)为题发表在预印本网站arXiv上 [1]。明尼苏达大学博士生雷斌和伊利诺伊大学芝加哥分校博士生康伟泰是共同第一作者,明尼苏达大学丁才文教授担任通讯作者。
图丨相关论文(来源:arXiv)可用于数字办公助手等场景
该团队持续关注通用 AI 代理(AI Agent)技术未来潜力。在他们看来,一个真正高效的智能代理,应该能够自主理解用户的意图,并像“数字助手”一样,在不依赖人类干预的情况下完成各类跨模态任务,从而真正解放人类的操作时间和注意力。
康伟泰对 DeepTech 表示,这项技术一旦成熟,有望在办公自动化、内容编辑、复杂信息检索与决策支持等领域带来革命性变革,使人类能够将精力集中于更具创造性和战略性的工作。
图丨康伟泰(来源:康伟泰)研究团队发现,现有方法主要面临两类主要问题:
一类是工具驱动型的系统,通常由大模型负责整个流程的决策,并调用预设工具。这类方法往往需要人类提前为每个任务场景精心设计工具调用逻辑,其存在泛化性差和维护成本高的局限性。
另一类则是纯视觉驱动的系统,尽管其具有一定通用性,但由于推理和执行全靠单一模型完成,受制于电脑屏幕的高分辨率视觉理解的挑战。因此,它常常在界面点击、文本定位、文件编辑等细节操作上出错,缺乏执行层面的鲁棒性。
研究团队的突破性地引入了一种模块分工协作机制——不再依赖单个模型解决所有问题,而是根据任务需求将不同子任务路由给专长不同的“专家模型”。
举例来说,语言模型用于任务规划、视觉模型用于定位界面元素、音频模型用于解析语音提示等。所有模块共享统一的上下文,子模块的输出也会被回写进系统历史中,进而实现端到端的多模态协作。
这种架构带来的新知识包括:充分利用了工具模型与视觉模型在不同任务类型中的互补性;实现了“任务分解-专家路由-上下文融合”的设计范式;证明了高度模块化智能体架构在多个基准任务中,具备更强的泛化能力和执行准确性。
(来源:arXiv)研究团队认为,InfantAgent-Next 的应用前景广阔。它的核心能力是让智能体能够像“虚拟人类用户”一样理解多模态输入(如文字、图片、声音等),并以高度准确、可控和自动化的方式操作计算机界面。
这种能力在未来有望嵌入到多种实际应用场景中:
数字办公助手:InfantAgent-Next 可用于自动完成文档撰写、表格处理、幻灯片制作、邮件收发等任务,尤其适合需要图文混合操作,帮助用户节省大量重复劳动时间。
无障碍辅助系统:对于视力障碍或行动不便人群,InfantAgent-Next 能通过语音和图像理解,帮助他们自动化地与电脑或网页界面交互,从而提升数字可及性。
跨模态客服与运维机器人:InfantAgent-Next 在电商、政务、金融等行业可用于后台自动填写系统表单、抓取页面数据、处理用户请求等,以智能化方式完成原本需要人工介入的操作流程。
教育与训练平台中的模拟用户:它可以被用作“虚拟学生”或“虚拟操作员”,在软件培训、系统测试等领域帮助构建仿真环境。
软件自动化测试与交互验证:与传统的 UI 自动化脚本相比,InfantAgent-Next 更具通用性和弹性,适用于快速生成测试流程、发现交互逻辑错误。
“长远来看,我们相信这类通用型 AI Agent 将逐渐成为每个人计算设备中的常驻助手,像系统级能力一样无处不在,并不断进化。”康伟泰说。
希望推动通用多模态 AI Agent 实际落地
回忆这次研究经历,最让康伟泰和雷斌难忘的是研究团队从最初的满腔热情,到逐步意识到实现这样一个多模态通用 AI Agent,实际上比研究团队预想中要困难得多。
起初,他们制定了清晰的分工合作流程:代码实现、benchmark 测试和论文构思、撰写,并按时间节点推进。但现实远比计划复杂——研究团队需要兼容多个 benchmark,开发支持它们的测试代码本身就极为繁琐。
而且,由于他们所设计的是一个“通用型”智能体,涉及的子领域非常多。为了把各项功能落地,研究团队花了大量时间去调研 GUI-VG(GUI Visual Grounding)相关工作,分析不同大语言模型的能力差异、API 调用成本等。然而,这些工作均无法直接复用现有方案,必须从头构建。
研究过程中,团队还遭遇了诸多突发问题,包括 API 成本超预算、GUI-VG 模块的迭代优化、论文写作方向的调整等,导致原计划一再被打乱。面对这些挑战,团队成员始终保持紧密协作,尤其在论文成型前的最后阶段,他们每天通过 Zoom 召开远程“战斗会议”,甚至通宵修改论文。
这段经历不仅产出了一项重要科研成果,更成为一场关于团队协作、韧性坚持和动态调整的宝贵实践。最终,团队成功按预期完稿,这一成果让所有成员倍感自豪,同时也让他们深刻认识到,高质量的科研工作并非线性推进,而是一场充满不确定性的博弈,需要灵活应对和紧密协作。
图丨INFANTAGENT-NEXT 在 OSWorld 上的性能(来源:arXiv)
目前,研究团队已经在规划后续的研究方向,并希望不断打磨和提升 InfantAgent-Next 的实际可用性与研究价值。
他们计划从以下几个方面持续推进:
提升整体 pipeline 的效率:当前系统中仍存在部分调用流程复杂、响应速度较慢的问题,研究团队计划对 Agent 的任务调度、模块协作和执行机制进行优化,使其更加高效流畅。
降低对外部 API 的依赖与成本:目前系统在多模态理解和推理方面仍需依赖一些高质量的商用 API,这在成本和稳定性上都带来挑战。他们正在探索更多开源、可自部署的替代方案,以增强系统的可控性和可持续性。
增强各子模块的模型能力:无论是视觉理解、语音分析还是多轮推理,相关模型的精度和鲁棒性都直接影响 Agent 的表现。研究团队将持续跟进最新研究成果并训练子模块模型,不断迭代子模块的选择与性能。
持续开源,服务社区:研究团队将保持 InfantAgent-Next 的开源更新,包括代码、评测脚本和工具链,也欢迎社区开发者、研究者或对 AI Agent 感兴趣的同学基于研究团队的工作进行改进或扩展,以推动整个领域的发展。
康伟泰表示:“我们希望这个项目不仅是一个‘能跑起来的系统’,而且是能成为社区中的基石去推动通用多模态 AI Agent 科研探索和实际落地。”
目前,InfantAgent-Next 的代码和评测脚本已经开放在 GitHub 上,研究团队也在持续高频率地更新。据团队预计,开源版本中的 Agent 很可能在未来几轮迭代中,能力有望远超当前论文所展示的水平。
参考资料:
1.https://arxiv.org/pdf/2505.10887
运营/排版:何晨龙