谷歌数到3,这次轮到Gemini遥遥领先|Landing AI
创始人
2025-11-19 19:44:41

现在轮到谷歌数到3了。

今天凌晨,谷歌正式Gemini 3系列模型,并率先上线Gemini 3 Pro预览版。按照介绍,开发者现可以在Google AI Studio直接调用API,Gemini应用已同步切换到新模型,企业与开发平台侧的更新则也已经纳入近期计划。

对外而言,这次发布看似沿袭了大模型迭代的惯常节奏,但从谷歌的表述方式到模型本身呈现出来的能力,都暗示着一个趋势:Gemini 3不再只是参数与跑分的跃迁,而是在尝试重新定义“模型在系统中的位置”。

Gemini 3 Pro被谷歌归纳为三个核心变化:推理强度提升、事实一致性增强、多模态能力从设计之初就内置而非附加。这意味着模型在对话中处理文本、图像、音频、视频不再需要分阶段切换,而是以统一的方式理解信息结构。

官方给出的示例依旧贴近日常场景:把家里几种语言混写的手写菜谱拍照丢给它,它能整理成一本统一格式的家庭菜谱;把一串长视频讲座交给它,它会把关键知识点拆成交互式卡片,甚至生成简单的可视化工具来辅助记忆。在Gemini应用中,Canvas工作区能够支持更完整的“小项目”;在Gemini Labs里,它也能根据你的问题生成类似杂志排版的界面。

这些特性看上去像是一次体验层面的升级,但真正让Gemini 3 Pro与以往不同的,是它在各类评估中的表现出现了领先式的变化,而不仅是“略微更准一点”。

过去一年,模型在各类基准测试中的差距往往停留在小范围波动。现在,一些关键指标第一次被明显拉开。

最突出的表现落在高难度数学与复杂推理方向。Gemini 3 Pro在MathArena Apex中拿到23.4%的正确率,而上一代模型为0.5%、Claude为1.6%、GPT-5.1为1.0%——这是长期停滞区间第一次被大幅突破。

在跨领域推理考试中,这种差距继续扩大。例如在Humanity’s Last Exam中,Gemini 3 Pro的无工具得分达到37.5%,工具模式则提升至45.8%,高于上一代的21.6%和GPT-5.1的26.5%。在GPQA Diamond中,它也以91.9%领先于同类模型的83%—88%区间。

多模态方面的变化则更集中体现在“界面理解”能力上。谷歌首次在技术资料中单列屏幕截图理解,模型不仅能识别内容,还能把握界面结构、按钮层级与可操作区域。

在ScreenSpot-Pro中,Gemini 3 Pro达到72.7%,而GPT-5.1仅为3.5%,Claude为36.2%,上一代Gemini为11.4%。这里的差距不只是识别率问题,而是决定了Agent是在“凭感觉点击”,还是确实理解界面语境。

这种能力直接关系到Agent在操作电脑时是否能保持“情境意识”——能否基于界面判断接下来会发生什么。对于任何期待AI“完成任务”的系统而言,这类能力远比单纯的图像识别更关键。

更广泛的表现也与谷歌想强调的方向一致:Gemini 3 Pro在多学科理解、视频推理和事实一致性上都拉开差距,并在工程类任务中显现出更高的稳定度。

例如在SimpleQA Verified中,Gemini 3 Pro达到72.1%,而同类模型普遍落在30%—35%区间;多语言综合能力的MMLU中,它拿下91.8%,略高于GPT-5.1的91.0%,并领先Claude的89.1%。

在工程类任务上,它不仅能处理更复杂的代码生成,还能在涉及实际环境的测试中稳定执行。例如在Terminal-Bench 2.0中,Gemini 3 Pro达到54.2%,而Claude为42.8%,GPT-5.1为47.6%;在长链路任务Vending-Bench 2中,它的收益为5478美元,而其他模型普遍在1500—3800美元之间。

不过,Gemini 3真正有意义的部分,不在于单项能力的提升,而是谷歌围绕它构建的系统形态。伴随此次更新推出的Antigravity,是一个以Agent为核心的开发环境。它并不是“补齐代码空缺”的工具,而是让模型能够直接参与开发流程:理解需求、拆分任务、生成代码、运行测试、检查界面效果,再回到代码层面调整。

于此,谷歌通过把不同模型组合使用,让Agent在编辑器、终端与浏览器之间自由切换,从而承接一段完整的执行链。对于结构不算复杂的项目,它已经能承担起实际工作。

面向普通用户的变化,则更集中体现在Gemini应用和Google搜索上。Gemini 3 Pro从第一天起就是默认模型,而应用内的“Gemini Agent”可以处理多步决策任务,例如归档邮件、安排行程或处理需要反复查找信息的事务。搜索端的AI Mode也开始呈现更动态的信息布局,包括结构化数据、图片、时间轴甚至交互组件。这些变化来自于Gemini 3对查询的拆分与重组,再由生成式界面组合展示,背后依赖的是更强的意图理解能力。

此外,谷歌在这一代模型中主动强调了一个方向:Gemini 3 Pro在回答时更少迎合用户,而更倾向于提供有信息密度的反馈。“降低迎合性”既对应今年的对话安全讨论,也说明谷歌正在尝试把“内容质量”变成产品特性,而不是语言风格。

基于上述这些,不难发现,Gemini 3的意义并不仅仅在于“跑分领先多少”,而更多的是,它把能力重新组织成一个能坚持执行任务、能跨模态整合、能在真实环境中保持结构稳定的系统。对谷歌来说,这提出了一个与GPT系列不同的回答:AI不仅要强,更要稳;不仅要会生成,更要懂场景;不仅能理解界面,更要能在界面中持续行动。

当然,接下来,Gemini 3能够走多远,所依仗的远非这些看起来很漂亮的跑分和能力,而是在日常使用中,能有多少真正留得住的地方。

相关内容

热门资讯

最新或2023(历届)新疆兵团... 为满足学校教育教学需要,进一步扩充和完善我校教师队伍,拓宽选人用人视野,更好地满足十三师职工群众对优...
最新或2023(历届)河北省廊... 一、招聘原则  坚持德才兼备的用人标准,贯彻民主、公开、竞争、择优的原则实行公开招聘,在考试、考察的...
教师工资改革:最新或2023(... 最新或2023(历届)教师按工龄涨工资  随国民经济增长:10年工龄2000元,15年工龄2300元...
最新或2023(历届)福建省泉... 为贯彻落实中共南安市委、南安市人民政府关于加快“泉州芯谷”南安核心区项目建设的战略部署,打造“泉州芯...
最新或2023(历届)黑龙江哈... 根据国家和省有关规定,依据《关于转发黑龙江省事业单位公开招聘工作人员实施细则的通知》(哈人社发〔最新...