炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
(来源:极客公园)
这次 Plus 用户也能用。
作者|Li Yuan
一个共识是,AI 今年的大主题,是 Agent。
如果说过去我们习惯了 AI 的「动嘴」,那么接下来,就是 AI「动手」的时代。毕竟,既然 AI 已经能听懂、又足够聪明,那为什么不能直接把事儿干完?
2025 年下半场刚开局,一直在定义 AI 的 OpenAI,突然端出了他们的 Agent 答卷。不过有趣的是,乍一看,它和几个月前爆火的 Manus 模式,惊人地相似。
7 月 18 日凌晨,Sam Altman 和四位 OpenAI 研究员在直播中介绍了 OpenAI 即将推出的 Agent 模式。
简单来说,在 Agent 模式下,你可以直接对 ChatGPT 提要求:婚礼缺双鞋,去电商平台帮我买了;或者,给我设计个宠物周边,直接下单打印;查找信息,直接生成 PPT。然后,ChatGPT 会自己打开虚拟机,一步步操作。
在演示中,一个复杂任务大概需要 10 分钟完成。但从结果看,完成度很高。ChatGPT 可以在虚拟环境里可以调用文本浏览器、可视化浏览器和终端。而基于终端,还可以进一步调用云服务 API、图片生成器,运行代码等。
更关键的,这次 OpenAI 不再 Pro 用户优先,Plus、Team 用户也将能很快上手,每月可用 40 次。量大,管饱。
Sam Altman 用他标志性的真诚眼神,对着屏幕说:这是一个全新的范式。就像我们学会上网,最后也学会了甄别诈骗信息一样,现在,整个社会需要学习如何与 Agent 安全地交互和共存。
01
Agent 模式能干什么?
直接观看 OpenAI 的 Agent 模式演示,会发现其直观体验与几个月前爆火的 Manus 高度相似。
在用户提出需求之后,都会自动开启一个虚拟机,开始自动执行一些任务,执行过程中,Agent 会反复请求用户确认,并允许随时手动接管。同时,用户也能在任务中途植入新需求,进行实时交互。
而在 OpenAI 的介绍中,Agent 模式可以调用三种工具:文本浏览器、可视化浏览器和终端。模型可以自主选择切换各种工具。
这种工具组合的设计颇为精巧:文本浏览器负责大量浏览文字,搜寻信息,而可视化浏览器则负责定位到信息之后直接模拟一些键鼠交互,或者用来读取图像信息。
而终端,则可以运行代码,生成包括 PPT、Excel 在内的文件,和调用一些云端 API。
在 OpenAI 提供的第一个演示里,研究员提出要规划参加另一个朋友婚礼的事宜,要挑选一套符合着装要求的礼服(考虑场地、天气、中高档价位)预订酒店,同时提供礼物建议。
研究员首先在 ChatGPT 里切换到 Agent 模式,把上述需求发过去。Agent 启动虚拟电脑、加载环境(大约几秒)。
然后 ChatGPT 先试用文本浏览器打开了用户给的网页,搜索婚礼信息、着装要求、天气等。发现需要进一步确认婚礼日期时,模型也提出了澄清请求,但用户选择让它自己继续推理。
在找到了天气、场地信息后,AI 开始推荐合适的礼服,并切换到可视化浏览器检查礼服效果。完成任务后,继续搜索酒店和礼物。
可以看到,最后给出的婚礼出行建议报告非常长而详细,涵盖了服装、酒店、礼物。甚至附上了非常多的链接,在酒店是否有空位的索引上,还附上了在线预订网站的截图。
而完成这样的一份报告,AI 只花了十分钟。相比于我们熟悉的一问一答看起来时间是长了很多,但是相比于实际的工作量,AI 看起来还是要比人的效率高太多了。
如果说这个演示还是更加体现其研究能力,另一个演示则直接展示了其动手能力。
研究员要求给团队的吉祥物(是一只可爱的狗狗,昵称 Bernie)做出一批笔记本贴纸,并下单 500 张。
Agent 直接利用终端功能,调用了图像生成工具(Image Gen API)来生成一张动漫风格的狗狗插画,作为贴纸的设计图案。
接着,Agent 打开浏览器访问 Sticker Mule 网站,把设计好的图上传到网站,填写了贴纸数量、尺寸等,并把商品加入购物车。
最后它主动向用户确认,是否要用这张插画?是否继续下单?是否需要用户自己输入信用卡付款,还是让它继续完成?
任务停留在让用户接管输入信用卡,花了 7 分钟。
同样的能力,Agent 还自己连接 Google Drive API(类似于国内的网盘),读取文件之后生成了一份 PPT。
查询了赛季日程,生成了一个详细的旅行电子表格 + 带标注地图的旅行攻略。这个任务比较复杂,Agent 大约花了 25 分钟完成。
02
轻描淡写:AI 能力又进步了
OpenAI 此次推出的新 Agent 模式,实际上并不是一项全新的创新,而是由 OpenAI 上半年推出的两样工具组合而成:Operator 和 Deep Research。
Operator 是原本只开放给了 Pro 用户的浏览器 Agent 工具,能够分析图形操作界面,并做出一定的操作。
而 Deep Research,则是一个深入研究的分析工具,可以阅读大量的网页,直接生成一份调研报告。
OpenAI 表示,在两样工具分别推出的过程中,发现很多用户用 Operator 写的提示词其实更像 Deep Research 的任务,比如「计划一次旅行并预订」。而 Deep Research 用户高度呼吁增加「登录网站、访问受保护资源」的能力,其实是 Operator 早就能做的。于是团队决定将两个产品融合起来。
这和刚刚离职的 OpenAI 的工程师的 OpenAI 的团队文化其实很接近:OpenAI 内部很看重工程师的自驱力,常常有多个类似的项目同时在推进,谁想做谁就能往前推进。
此次 Operator 和 Deep Research 的融合看起来还是很成功的。两个从不同角度推动的 Agent 项目,最后融合起来,有了一些奇妙的化学反应,也避开了只使用浏览器的图形界面去阅读文字材料的低效,让最后能形成深度报告的时长变得并不高。
OpenAI 也提到了在为模型提供多种工具之后,怎样训练模型。
仍然是使用强化学习。一开始模型会「笨拙」地尝试用所有工具解决一个相对简单的问题。也就是说,它刚开始不会判断哪个工具更合适。
通过奖励它那些解决问题更高效、更合理的行为,模型能逐渐学会如何用这些工具。在什么情况下用哪个工具最合适。
比如如果是做创意作品,它会先搜索公开资源;然后用终端写代码、编译作品;最后用可视化浏览器验证结果。
而在一堆 Demo 中,OpenAI 也轻描淡写地又抛出了一个新的基准测试成绩。
在 Humanities Last Exam(人类的最后一场大考)中,能够使用浏览器、电脑和终端的 Agent 模式模型,已经能够达到 42%的高分,相比于完全不使用工具的 o3,有一倍的提升。
而在世界范围内也是领先的——Grok 宣布带工具的 Grok 4 Heavy 在测试中取得 45% 的成绩。
使用工具后的高级数学推理能力,也有了进一步的提升。
公布的基准中,有两个是和人类的对比。
一个是在网页中操作的能力(WebArena),一个是操作电子表格的能力(SpreadsheetBench)。可以看到,两项基准中,Agent 模式仍然不如人类,但是网页操作,已经追近了人类水平。
这意味着,即便只是整合这些本身尚不如人类的工具,大模型也能获得显著的能力提升。Agent 时代,大模型能力的提升显然还有更高的天花板。
03
和 Agent 共处的时代,确实来了
毫无疑问,Agent 是 2025 年 AI 领域的绝对风口。
但风口之下,用户的真实体感往往并不完美:任务运行时间过长;稍复杂的任务就频频出错。一位早期 Operator 用户评论道「每次点击和滚动,都像在炎热夏日中游泳。」
此次 OpenAI 将 Operator 与 Deep Research 融合,或许正是为了缓解这种「粘滞感」,让 Agent 真正跑起来。
当 OpenAI 自己下场,一个更直接的问题摆在了所有类似 Manus 的第三方开发者面前:这究竟是会催生一个繁荣的 Agent 应用生态,还是会直接碾压所有创业公司?答案尚不明朗。
而对于用户而言,一个更切身的挑战随之而来:隐私和安全。
当 AI 在我们看不见的虚拟机里,点开一个网页、输入我们的个人信息时,谁来保证安全?
如果它被钓鱼网站骗走了我们的信用卡号,责任谁负?
OpenAI 对此的回应是,他们会采取极其严格的审查和安全措施,但它也希望整个社会都能花时间去适应和建立规范。
Agent时代,确实是继Chat时代之后,一个截然不同的新阶段。
在Chat时代,我们学会了适应AI的“嘴”——我们慢慢习惯了它的幻觉,并学会在它的花言巧语中甄别真伪。这是一个关于“信息可信度”的挑战。
而在Agent时代,挑战则完全转向了AI的“手”。我们需要回答一系列全新的问题:我们究竟愿意多信任 AI?我们又愿意把多大的权限交出去,让它代替我们完成多少现实世界的事情?
而我们与AI的关系,也将因此被重新定义。
从更宏观的视角看,Agent 的爆发也将再次将一个老问题以更尖锐的方式推到我们面前:当 AI 能真正「干活」时,我们的工作会怎样?
当 AI 能独立完成一份包含数据检索、图像查证的复杂报告,并直接完成在线预订时,白领们的工作究竟是被赋能加速,还是被彻底威胁?
答案尚在风中飘。
但无论我们欢迎、恐惧还是茫然,一个由 Agent 驱动的、更自动化的新时代,确实正在加速到来。
*头图来源:OpenAI
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO
极客一问
你认为 OpenAI 在 Agent 领域目前领先吗?
马斯克:当有比人类更聪明的东西出现时,会发生什么呢?
点赞关注 极客公园视频号 ,