研究人员设计多模态通用智能体,性能超过Claude计算机代理等系统
创始人
2025-05-31 22:36:32
0

近期,美国明尼苏达大学与伊利诺伊大学芝加哥分校等联合团队提出并实现了一个名为 InfantAgent-Next 的通用型多模态智能体系统,其能够通过文字、图像、音频等方式与计算机进行自动化交互。

它的核心创新在于,打破了现有系统普遍采用的“单一依赖”模式(或依赖工具,或依赖视觉模型),转而采用高度模块化的混合式架构。

目前,研究团队已在多个真实交互任务中验证了 InfantAgent-Next 的有效性,包括办公软件操作、网页编辑、音频理解等任务场景,性能超过了多个现有基线。例如,在 OSWorld 任务中准确率达到 35.3%,超过了 Claude 计算机代理等系统。

此外,他们还开源了完整代码与评估脚本,希望推动社区进一步研究真正可落地的多模态通用智能体。

近日,相关论文以《InfantAgent-Next:多模态通用代理的计算机自动交互技术》(InfantAgent-Next: A Multimodal Generalist Agent for Automated Computer Interaction)为题发表在预印本网站arXiv上 [1]。明尼苏达大学博士生雷斌和伊利诺伊大学芝加哥分校博士生康伟泰是共同第一作者,明尼苏达大学丁才文教授担任通讯作者。

图丨相关论文(来源:arXiv)

可用于数字办公助手等场景

该团队持续关注通用 AI 代理(AI Agent)技术未来潜力。在他们看来,一个真正高效的智能代理,应该能够自主理解用户的意图,并像“数字助手”一样,在不依赖人类干预的情况下完成各类跨模态任务,从而真正解放人类的操作时间和注意力。

康伟泰对 DeepTech 表示,这项技术一旦成熟,有望在办公自动化、内容编辑、复杂信息检索与决策支持等领域带来革命性变革,使人类能够将精力集中于更具创造性和战略性的工作。

图丨康伟泰(来源:康伟泰)

研究团队发现,现有方法主要面临两类主要问题:

一类是工具驱动型的系统,通常由大模型负责整个流程的决策,并调用预设工具。这类方法往往需要人类提前为每个任务场景精心设计工具调用逻辑,其存在泛化性差和维护成本高的局限性。

另一类则是纯视觉驱动的系统,尽管其具有一定通用性,但由于推理和执行全靠单一模型完成,受制于电脑屏幕的高分辨率视觉理解的挑战。因此,它常常在界面点击、文本定位、文件编辑等细节操作上出错,缺乏执行层面的鲁棒性。

研究团队的突破性地引入了一种模块分工协作机制——不再依赖单个模型解决所有问题,而是根据任务需求将不同子任务路由给专长不同的“专家模型”。

举例来说,语言模型用于任务规划、视觉模型用于定位界面元素、音频模型用于解析语音提示等。所有模块共享统一的上下文,子模块的输出也会被回写进系统历史中,进而实现端到端的多模态协作。

这种架构带来的新知识包括:充分利用了工具模型与视觉模型在不同任务类型中的互补性;实现了“任务分解-专家路由-上下文融合”的设计范式;证明了高度模块化智能体架构在多个基准任务中,具备更强的泛化能力和执行准确性。

(来源:arXiv)

研究团队认为,InfantAgent-Next 的应用前景广阔。它的核心能力是让智能体能够像“虚拟人类用户”一样理解多模态输入(如文字、图片、声音等),并以高度准确、可控和自动化的方式操作计算机界面。

这种能力在未来有望嵌入到多种实际应用场景中:

数字办公助手:InfantAgent-Next 可用于自动完成文档撰写、表格处理、幻灯片制作、邮件收发等任务,尤其适合需要图文混合操作,帮助用户节省大量重复劳动时间。

无障碍辅助系统:对于视力障碍或行动不便人群,InfantAgent-Next 能通过语音和图像理解,帮助他们自动化地与电脑或网页界面交互,从而提升数字可及性。

跨模态客服与运维机器人:InfantAgent-Next 在电商、政务、金融等行业可用于后台自动填写系统表单、抓取页面数据、处理用户请求等,以智能化方式完成原本需要人工介入的操作流程。

教育与训练平台中的模拟用户:它可以被用作“虚拟学生”或“虚拟操作员”,在软件培训、系统测试等领域帮助构建仿真环境。

软件自动化测试与交互验证:与传统的 UI 自动化脚本相比,InfantAgent-Next 更具通用性和弹性,适用于快速生成测试流程、发现交互逻辑错误。

“长远来看,我们相信这类通用型 AI Agent 将逐渐成为每个人计算设备中的常驻助手,像系统级能力一样无处不在,并不断进化。”康伟泰说。

希望推动通用多模态 AI Agent 实际落地

回忆这次研究经历,最让康伟泰和雷斌难忘的是研究团队从最初的满腔热情,到逐步意识到实现这样一个多模态通用 AI Agent,实际上比研究团队预想中要困难得多。

起初,他们制定了清晰的分工合作流程:代码实现、benchmark 测试和论文构思、撰写,并按时间节点推进。但现实远比计划复杂——研究团队需要兼容多个 benchmark,开发支持它们的测试代码本身就极为繁琐。

而且,由于他们所设计的是一个“通用型”智能体,涉及的子领域非常多。为了把各项功能落地,研究团队花了大量时间去调研 GUI-VG(GUI Visual Grounding)相关工作,分析不同大语言模型的能力差异、API 调用成本等。然而,这些工作均无法直接复用现有方案,必须从头构建。

研究过程中,团队还遭遇了诸多突发问题,包括 API 成本超预算、GUI-VG 模块的迭代优化、论文写作方向的调整等,导致原计划一再被打乱。面对这些挑战,团队成员始终保持紧密协作,尤其在论文成型前的最后阶段,他们每天通过 Zoom 召开远程“战斗会议”,甚至通宵修改论文。

这段经历不仅产出了一项重要科研成果,更成为一场关于团队协作、韧性坚持和动态调整的宝贵实践。最终,团队成功按预期完稿,这一成果让所有成员倍感自豪,同时也让他们深刻认识到,高质量的科研工作并非线性推进,而是一场充满不确定性的博弈,需要灵活应对和紧密协作。

图丨INFANTAGENT-NEXT 在 OSWorld 上的性能(来源:arXiv)

目前,研究团队已经在规划后续的研究方向,并希望不断打磨和提升 InfantAgent-Next 的实际可用性与研究价值。

他们计划从以下几个方面持续推进:

提升整体 pipeline 的效率:当前系统中仍存在部分调用流程复杂、响应速度较慢的问题,研究团队计划对 Agent 的任务调度、模块协作和执行机制进行优化,使其更加高效流畅。

降低对外部 API 的依赖与成本:目前系统在多模态理解和推理方面仍需依赖一些高质量的商用 API,这在成本和稳定性上都带来挑战。他们正在探索更多开源、可自部署的替代方案,以增强系统的可控性和可持续性。

增强各子模块的模型能力:无论是视觉理解、语音分析还是多轮推理,相关模型的精度和鲁棒性都直接影响 Agent 的表现。研究团队将持续跟进最新研究成果并训练子模块模型,不断迭代子模块的选择与性能。

持续开源,服务社区:研究团队将保持 InfantAgent-Next 的开源更新,包括代码、评测脚本和工具链,也欢迎社区开发者、研究者或对 AI Agent 感兴趣的同学基于研究团队的工作进行改进或扩展,以推动整个领域的发展。

康伟泰表示:“我们希望这个项目不仅是一个‘能跑起来的系统’,而且是能成为社区中的基石去推动通用多模态 AI Agent 科研探索和实际落地。”

目前,InfantAgent-Next 的代码和评测脚本已经开放在 GitHub 上,研究团队也在持续高频率地更新。据团队预计,开源版本中的 Agent 很可能在未来几轮迭代中,能力有望远超当前论文所展示的水平。

参考资料:

1.https://arxiv.org/pdf/2505.10887

运营/排版:何晨龙

相关内容

热门资讯

辗转多个海域,舰艇编队展开实战... 转自:北京日报客户端连日来,南部战区海军某训练中心联合某驱逐舰支队组织渭南舰、玉林舰等多艘舰艇,辗转...
申城5月楼市运行平稳,一二手住... 转自:上观新闻今年以来,上海房地产市场延续回稳向好趋势,从年初“淡季不淡”的开局到“金三银四”的“小...
一热就流汗VS夏天不出汗,哪种... 转自:生命时报微信公号最近天气越来越热,有的人稍微一动就汗如雨下,而有些人却几乎不怎么出汗。这两种体...
巨子生物深夜突发声明:接受检测... 6月1日22时许,巨子生物旗下可复美微信公众号发布了一份声明,题为《巨子接受“大嘴博士”(郝宇)所用...
申万宏源研究总经理王胜:中国资...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!   来源:申万宏源研...
新民艺评丨朱光:闪光少女与鲜衣... 转自:上观新闻若不是从第二个节目《铮铮》起,乐风突转为青春时尚,大约上海观众还会误以为中央民乐团参加...
恩施女儿城警务室创新举措护航景... 转自:中国警察网地处鄂西武陵山腹地的湖北省恩施市,有一座“不夜城”常年灯火璀璨。土家吊脚楼鳞次栉比,...
爱心护航 筑梦未来——百辆送考... 转自:亳州新闻网5月30日上午,华膳楼老君大道店前爱前心汇聚,红丝带迎风飘扬。由亳州市民建企联会、华...
突发!美军发动空袭! 根据美国非洲司令部(AFRICOM)官网发布的一份声明,当地时间6月1日,美国非洲司令部与索马里联邦...
100万元消费券!鹤岗“龙江三... 转自:龙头新闻·黑龙江日报文丨龙头新闻·黑龙江日报 吴树江 6月1日,鹤岗“龙江三峡”全境通航,今年...
这笔费用,即将下调! 转自:江门发布今日聚焦今年6月5日起国内航线旅客运输燃油附加费征收标准调整其中:800公里(含)以下...
美方称中方违反中美日内瓦经贸会... 据商务部网站6月2日消息,商务部新闻发言人就美方有关言论答记者问。有记者问:近日,美方不断有消息称,...
以旧换新成效持续显现 转自:经济日报王 鹏作(新华社发)统计数据显示,2024年9月份至2025年4月份,家电类商品零售额...
白宫国家经济委员会主任:预计中... 【文/观察者网 熊超然】当地时间6月1日,白宫国家经济委员会主任凯文·哈西特(Kevin Hasse...
“外卖诗人”王计兵,要有新职务... 还记得“外卖诗人”王计兵吗?曾经边送外卖边写诗的他如今要有新职务了!近日江苏省徐州市委宣传部发布了一...
新民体育丨斯卢茨基有新计划? 转自:上观新闻最近,申花主帅斯卢茨基有点忙。除了带领球队备战下一阶段的联赛和足协杯,这位俄超冠军教练...
中国残联声明:将追责! 转自:中安在线中国残疾人联合会近日发布《关于警惕不法分子假冒中国残疾人联合会名义开展助残基金申购等诈...
助力高质量就业 申城教师比拼职... 2025年上海大学生职业规划大赛课程教学比赛决赛本周在华东师范大学举行,汇聚了申城48所高校156名...
马斯克:“政府效率部”成了替罪... 当地时间6月1日,美国企业家埃隆·马斯克当日在接受美国哥伦比亚广播公司的采访时表示,他不想公开反对美...
记者观察丨俄乌缺乏互信 在备忘... 转自:央视根据土耳其外交部透露,俄乌第二轮会谈将于6月2日在伊斯坦布尔举行。此前在5月16日,伊斯坦...