AI已经对软件编写方式产生了深远影响,编程中的大量基础工作现在由大量智能体和子智能体完成。但随着开发者不断尝试人机协作的新交互界面和形式,即使是最先进的AI实验室也很难跟上这一趋势。
当前的趋势是智能体化软件开发——即AI智能体可以独立完成编程任务的系统——Claude Code和Cowork应用是其中的典型代表。与此同时,OpenAI一直在逐步构建其Codex工具,该工具于去年4月作为命令行工具推出,并在一个月后扩展到Web界面。
现在,OpenAI正在采取重大举措迎头赶上。本周一,该公司推出了Codex的全新macOS应用,集成了过去一年中流行的许多智能体实践方法。这款新应用旨在支持多个智能体并行工作,整合了智能体技能和其他前沿工作流程。此次发布距离GPT-5.2-Codex(OpenAI最强大的编程模型)推出还不到两个月,该公司希望这足以吸引Claude Code的用户。
"如果你真的想在复杂项目上做精细工作,5.2是目前最强大的模型,"首席执行官山姆·奥特曼在新闻电话会议上对记者说,"然而,它的使用门槛较高,因此将这种级别的模型能力放入更灵活的界面中,我们认为会产生相当大的影响。"
尽管奥特曼对GPT-5.2充满信心是可以理解的,但编程基准测试却呈现出更复杂的情况。截至发稿时,GPT-5.2确实在TerminalBench(一项测量AI处理命令行编程任务能力的测试)中占据榜首位置。但Gemini 3和Claude Opus的智能体记录了大致相当的分数——虽然较低,但在基准测试的误差范围内。另一个编程基准测试SWE-bench的结果类似,该测试评估AI修复真实世界软件漏洞的能力,显示GPT-5.2并无明显优势。不过,智能体应用场景一直难以进行有效基准测试,而最先进的模型在用户体验上可能存在显著差异。
Codex应用还配备了一系列新功能,OpenAI表示这些功能将帮助它实现与各种Claude应用的平等竞争,在某些情况下甚至超越它们。Codex应用将支持自动化功能,可以设置为按自动计划在后台运行,结果会放入队列中供用户返回时查看。用户还可以为智能体选择不同的个性——从务实到富有同理心——以适应他们的工作风格。
但对公司而言,最大的卖点是AI所实现的惊人开发速度。"你可以从一张白纸开始使用这个工具,在几个小时内创建出一个相当复杂的软件,"奥特曼说,"我输入新想法的速度就是能够构建内容的极限。"
Q&A
Q1:OpenAI的Codex新应用有什么特别之处?
A:Codex新应用是OpenAI推出的macOS应用,集成了智能体化编程实践,支持多个智能体并行工作。它配备了自动化后台运行功能,可按计划执行任务并将结果放入队列。用户还可以为智能体选择不同个性风格,从务实到富有同理心,以适应不同工作习惯。
Q2:GPT-5.2-Codex在编程能力上真的最强吗?
A:情况比较复杂。GPT-5.2在TerminalBench测试中排名第一,但Gemini 3和Claude Opus的智能体得分与之接近,差距在误差范围内。在SWE-bench基准测试中,GPT-5.2也没有显示出明显优势。不过智能体应用场景难以有效评测,实际用户体验可能存在显著差异。
Q3:使用Codex应用能多快完成软件开发?
A:据OpenAI首席执行官奥特曼介绍,使用Codex应用可以从零开始,在几个小时内创建出相当复杂的软件。他表示输入新想法的速度就是构建内容的极限,AI大大加快了软件开发速度,使开发者能够快速将想法转化为实际应用。