OpenAI推出新款macOS智能体编程应用
创始人
2026-02-03 18:19:37

AI已经对软件编写方式产生了深远影响,编程中的大量基础工作现在由大量智能体和子智能体完成。但随着开发者不断尝试人机协作的新交互界面和形式,即使是最先进的AI实验室也很难跟上这一趋势。

当前的趋势是智能体化软件开发——即AI智能体可以独立完成编程任务的系统——Claude Code和Cowork应用是其中的典型代表。与此同时,OpenAI一直在逐步构建其Codex工具,该工具于去年4月作为命令行工具推出,并在一个月后扩展到Web界面。

现在,OpenAI正在采取重大举措迎头赶上。本周一,该公司推出了Codex的全新macOS应用,集成了过去一年中流行的许多智能体实践方法。这款新应用旨在支持多个智能体并行工作,整合了智能体技能和其他前沿工作流程。此次发布距离GPT-5.2-Codex(OpenAI最强大的编程模型)推出还不到两个月,该公司希望这足以吸引Claude Code的用户。

"如果你真的想在复杂项目上做精细工作,5.2是目前最强大的模型,"首席执行官山姆·奥特曼在新闻电话会议上对记者说,"然而,它的使用门槛较高,因此将这种级别的模型能力放入更灵活的界面中,我们认为会产生相当大的影响。"

尽管奥特曼对GPT-5.2充满信心是可以理解的,但编程基准测试却呈现出更复杂的情况。截至发稿时,GPT-5.2确实在TerminalBench(一项测量AI处理命令行编程任务能力的测试)中占据榜首位置。但Gemini 3和Claude Opus的智能体记录了大致相当的分数——虽然较低,但在基准测试的误差范围内。另一个编程基准测试SWE-bench的结果类似,该测试评估AI修复真实世界软件漏洞的能力,显示GPT-5.2并无明显优势。不过,智能体应用场景一直难以进行有效基准测试,而最先进的模型在用户体验上可能存在显著差异。

Codex应用还配备了一系列新功能,OpenAI表示这些功能将帮助它实现与各种Claude应用的平等竞争,在某些情况下甚至超越它们。Codex应用将支持自动化功能,可以设置为按自动计划在后台运行,结果会放入队列中供用户返回时查看。用户还可以为智能体选择不同的个性——从务实到富有同理心——以适应他们的工作风格。

但对公司而言,最大的卖点是AI所实现的惊人开发速度。"你可以从一张白纸开始使用这个工具,在几个小时内创建出一个相当复杂的软件,"奥特曼说,"我输入新想法的速度就是能够构建内容的极限。"

Q&A

Q1:OpenAI的Codex新应用有什么特别之处?

A:Codex新应用是OpenAI推出的macOS应用,集成了智能体化编程实践,支持多个智能体并行工作。它配备了自动化后台运行功能,可按计划执行任务并将结果放入队列。用户还可以为智能体选择不同个性风格,从务实到富有同理心,以适应不同工作习惯。

Q2:GPT-5.2-Codex在编程能力上真的最强吗?

A:情况比较复杂。GPT-5.2在TerminalBench测试中排名第一,但Gemini 3和Claude Opus的智能体得分与之接近,差距在误差范围内。在SWE-bench基准测试中,GPT-5.2也没有显示出明显优势。不过智能体应用场景难以有效评测,实际用户体验可能存在显著差异。

Q3:使用Codex应用能多快完成软件开发?

A:据OpenAI首席执行官奥特曼介绍,使用Codex应用可以从零开始,在几个小时内创建出相当复杂的软件。他表示输入新想法的速度就是构建内容的极限,AI大大加快了软件开发速度,使开发者能够快速将想法转化为实际应用。

相关内容

热门资讯

最新或2023(历届)中国计量...   中国计量大学现代科技学院于1999年经浙江省和国家质量监督检验检疫总局批准设立,2004年经国家...
最新或2023(历届)浙江大学... 浙江大学医学院的前身是由1912年创办的浙江医学专门学校和1945年创设的国立浙江大学医学院合并(1...
膝盖疼痛肿胀千万别拖!过度运动... (来源:荔枝新闻)转自:荔枝新闻 【#膝盖疼痛肿胀千万别...
投资中国专栏丨李成钢国际贸易谈... 转自:商务微新闻2月2日,商务部国际贸易谈判代表兼副部长李成钢会见罗技公司首席执行官法贝尔。双方就罗...
调研速递|扬杰电子接受红杉中国... 调研基本情况活动概况2026年1月21日至30日,扬州扬杰电子科技股份有限公司(下称“扬杰电子”)以...