100万 Token + 接管鼠标:GPT-5.4 正把 AI 推向“数字员工”
创始人
2026-03-06 09:05:21

来源:钛媒体

如果 AI 可以阅读整套项目文档、在复杂问题上进行长时间推理,并且自己操作电脑完成任务,它就不再只是一个聊天机器人,而是一种新的软件形态。

随着 OpenAI 推出 GPT-5.4 Thinking 与 GPT-5.4 Pro,这种变化开始变得具体。

100 万 Token 上下文、推理计算模式,以及原生计算机操作能力 正在同时出现。

当这三条技术路径开始汇合时,大模型的角色正在从“回答问题”转向另一件事:直接完成工作

GPT-5.4:一次围绕“执行能力”的模型升级

2026 年 3 月初,硅谷再次被密集的 AI 发布节奏所笼罩。

在多轮业内传闻之后,OpenAI 推出了 GPT-5.4 系列模型。与过去侧重聊天体验或推理能力的升级不同,这一版本的能力组合明显指向另一个目标:让 AI 更直接地参与实际工作流程。

官方公布的一组关键指标包括:

  • 100 万 Token 上下文窗口

  • GPT-5.4 Thinking 推理模式

  • 原生计算机操作能力(computer use)

  • Tool Search 工具检索机制

在桌面操作基准 OSWorld 中,模型的成功率达到 约 75%,略高于人类测试基准 约 72%

而在知识工作基准 GDPval 中,模型在 44 种职业任务中有约 83% 达到或超过专业水平

这些指标本身或许仍需要更多实际验证,但它们指向的趋势非常明确:AI 正在从信息处理工具变成任务执行系统。

长上下文:模型第一次能“读完整个项目”

企业部署大模型一直受到一个结构性限制:上下文窗口。

早期模型只能处理有限的信息量,这迫使企业构建复杂的 Retrieval-Augmented Generation 系统,把文档拆分、索引,再按需检索给模型。

这种架构在过去两年成为 AI 工程的标准方案,但也带来了新的复杂度。数据被切块后,上下文关系容易丢失;检索系统本身也增加了延迟与维护成本。

GPT-5.4 将上下文扩展到 100 万 Token。这意味着模型理论上可以在一次任务中处理完整代码库、长期财务记录,甚至整个项目文档。

RAG 并不会消失,因为权限控制、实时数据更新与索引效率仍然是企业系统不可或缺的一部分。但在分析型任务中,超长上下文确实降低了对复杂检索架构的依赖。

更重要的是,模型开始具备一种过去很难实现的能力:理解完整项目,而不是零散信息。

Computer-Use:AI 开始直接操作软件

真正让企业软件行业警觉的,可能不是上下文窗口,而是 GPT-5.4 的另一项能力:原生计算机操作

在这一模式下,模型可以通过视觉理解软件界面,并执行鼠标点击、键盘输入以及应用导航等操作。这意味着 AI 不再依赖 API 集成,而是能够像人类一样直接操作软件。

这一变化对企业自动化领域尤其重要。

过去二十年,大量企业自动化依赖 Robotic Process Automation 系统。RPA 的核心逻辑是通过脚本或流程图自动执行固定步骤,例如录入数据或在系统之间复制信息。

而具备视觉理解与规划能力的 AI,则可能承担更复杂的任务,例如:

  • 跨系统整理数据

  • 执行多步骤后台流程

  • 在陌生界面中寻找操作路径

RPA 并不会立即被取代,但 AI 代理已经开始进入它们长期占据的自动化领域。

推理时计算:AI 学会“慢思考”

GPT-5.4 的另一项关键变化是 Thinking 模式

这一模式并不是简单扩大模型规模,而是在推理阶段投入更多计算资源,从而提升复杂任务的可靠性。这代表着大模型发展的一条重要路线:推理时计算(compute-at-inference)

过去十年,模型能力主要依赖训练阶段的大规模数据与算力。但随着预训练收益逐渐递减,越来越多公司开始把算力投入到推理阶段。

类似趋势也出现在其他 AI 公司,例如 Anthropic 的深度推理模式,以及 Google 在复杂任务中的推理系统。

这种模式的特点很明确:响应时间更长、计算成本更高,但在法律分析、财务建模或复杂决策任务中,成功率明显提高。

在企业场景中,这类“慢思考 AI”反而更接近真实的专业工作方式。

Tool Search:被低估的架构升级

相比百万 Token 与 computer-use,Tool Search 可能是这次发布中最容易被忽视的一项升级。

过去,当模型需要调用工具时,开发者通常必须把所有工具说明都加载进提示词中。这不仅占用上下文空间,也增加了 Token 成本。

Tool Search 改变了这一机制:模型可以在需要时检索工具定义,而不是预加载全部工具。

在多工具系统中,这种方式可显著减少工具相关的 Token 消耗。对于构建复杂 AI 系统的开发者而言,这类架构优化往往比单纯提升模型能力更重要。

因为真正的大规模 AI 应用,通常由几十甚至上百个工具共同组成。

AI 竞争的真正焦点正在改变

如果把这些变化放在一起观察,就会发现 AI 竞争的重心正在发生变化。

过去几年,大模型竞争主要集中在规模、参数与价格。但现在,竞争正在逐渐转向另一件事情:谁能让 AI 真正完成任务。

在这个维度上,不同公司的策略逐渐分化:

  • OpenAI:强调 AI 代理与执行能力

  • Anthropic:强调可靠推理与安全性

  • Google:强调工具生态与云基础设施

这场竞争的终点,很可能不是更聪明的聊天机器人,而是一种新的软件形态。

一种可以理解任务、规划步骤并执行操作的 AI 工作代理

软件范式正在变化

从更长的上下文,到更强的推理,再到直接操作软件界面,大模型正在同时获得三种能力:理解信息、思考问题、执行操作。

当这三种能力结合在一起时,AI 就不再只是软件的一个接口,而可能逐渐成为新的软件平台。

在这种结构下,大模型不仅会改变搜索、写作或编程工具,还可能重新塑造企业软件的基本形态。

问题已经不再是 AI 能否理解工作。而是 AI 何时开始真正接管工作流程(本文首发钛媒体App , 作者|硅谷Tech news,编辑|秦聪慧) 

特别声明:以上内容仅代表作者本人的观点或立场,不代表Hehson财经头条的观点或立场。如因作品内容、版权或其他问题需要与Hehson财经头条联系的,请于上述内容发布后的30天内进行。

相关内容

热门资讯

全球首创6合1热泵洗护站,海信... 近年来,家电行业创新迭代持续加速,洗衣机领域多筒化浪潮全面兴起,消费者对分区洗护、健康高效、场景集成...
成交额超2亿元,自由现金流ET... 截至2026年3月6日10:21,国证自由现金流指数下跌0.12%。成分股方面涨跌互现,中国动力领涨...
全国人大代表、北大博雅特聘教授... 格隆汇3月6日|全国人大代表、北大博雅特聘教授田轩表示,围绕“服务实体经济、助力高质量发展”这个核心...
亿利达涨2.05%,成交额25... 3月6日,亿利达盘中上涨2.05%,截至10:31,报6.96元/股,成交2586.51万元,换手率...
3月5日科创债ETF银华(15... 数据显示,3月5日,科创债ETF银华(159112)获净申购2519.13万元,位居当日债券ETF净...