ChatGPTAgent部分能力超越人类,但ChatGPTAgent做电子表格不及人类
创始人
2025-07-18 13:43:27
0

【#ChatGPTAgent部分能力超越人类#,但#ChatGPTAgent做电子表格不及人类#】北京时间7月18日凌晨,OpenAI直播发布了ChatGPT Agent,这一智能体融合了Operator智能体网页交互能力以及Deep Research功能,使ChatGPT内置计算机能帮助用户完成复杂的多步骤任务。#ChatGPT有Agent了#

据介绍,ChatGPT的工作过程包括浏览网站、过滤结果、提醒用户登录相关账号、运行账号、分析、创建电子表格和幻灯片。

从基准测试表现看,在跨学科专家级测试Humanity’s Last Exam中,ChatGPT Agent回答准确率为41.6%,超过Deep Research的26.6%、o3模型的24.9%;在数学基准测试FrontierMath中,ChatGPT Agent准确率为27.4%,高于o4 mini的19.3%和o3的10.3%;在针对真实知识工作任务的内部评测中,ChatGPT Agent在约半数案例中的表现与人类持平或超过人类;在现实数据科学任务DSBench测试中,ChatGPT的分析与建模准确率分别为89.9%和85.5%,超过人类水平;在衡量模型承担一到三年投资银行分析师建模任务能力的内部基准上,准确率高于o3和Deep Research。

不过,虽然ChatGPT Agent在SpreadsheetBench测试(评估模型编辑真实场景电子表格的能力)中,表现超过OpenAI的其他模型,但其最高得分45.5%还是远低于人类得分71.3%。

相关内容

热门资讯

耀皮玻璃:股东中国复材拟减持不... 7月18日,上海耀皮玻璃集团股份有限公司(耀皮玻璃,600819.SH)公告,持股10.74%的股东...
投资者提问:请问2024年的分... 投资者提问:请问2024年的分红什么时候实施?我看今年好像比较晚董秘回答(五 粮 液SZ000858...
执行干警化身“房产中介”,老田... 图为2025年5月,云南省开远铁路运输法院执行局局长刘应坤(左一)来到申请执行人金某家中签署执行和解...
铜冠铜箔(301217.SZ)... 格隆汇7月18日丨铜冠铜箔(301217.SZ)公布,公司及全资子公司铜陵铜冠电子铜箔有限公司、合肥...
投资者提问:请问在国内消费疲软... 投资者提问:请问在国内消费疲软,消费者价格敏感的背景下,面对跨境电商平台打出的“价格战”,中国中免如...