OpenAI宣布推出AI Agent评测基准PaperBench
创始人
2025-04-03 07:46:24

当地时间4月2日,美国开放人工智能研究中心(OpenAI)宣布推出PaperBench——一个评估AI智能体复现前沿AI研究能力的基准。智能体需从零开始复现20篇ICML 2024 Spotlight和Oral论文,包括理解论文贡献、开发代码库并成功执行实验。据介绍,在PaperBench上测试多个前沿模型后发现,表现最佳的智能体Claude 3.5 Sonnet(新版)结合开源框架,平均复现得分为21.0%。最终其招募顶尖机器学习博士尝试部分测试集,发现上述模型表现尚未超越人类基线。

相关内容

热门资讯

香农芯创:产品线聚焦地面场景,... 投资者提问:请问卫星是否会应用导储存芯片,以及公司目前战略方向是什么?董秘回答(香农芯创SZ3004...
鸿铭股份:截至2月13日公司股... 投资者提问:请问2026年2月13日的股东人数是多少?董秘回答(鸿铭股份SZ301105):尊敬的投...
中方回应特朗普访华事宜:中美双... 外交部:中美双方就特朗普总统访华事宜保持着沟通就美方表示美国总统特朗普将于3月底4月初访华,外交部发...
山东威达:投资者询问战略投资知... 投资者提问:董秘你好,贵司战略投资知行机器人投入了多少资金?占有多少比例的股份?双方将从哪些方面进行...
印尼巴布亚省一地发生5.7级地... 转自:财联社【印尼巴布亚省一地发生5.7级地震】财联社2月24日电,据印尼气象、气候和地球物理局发布...