还是谷歌懂程序员?Demis 采访首提“氛围编程”,Gemini 3 彻底戒掉“爹味”说教
创始人
2025-11-21 18:11:29

责编 | 王启隆

谷歌这几天连发产品,Gemini 3 余温还未消退,立刻就把 Nano Banana Pro 这一大杀器祭了出来,而 OpenAI 则是反常的没有太多动作。

前几天 Google DeepMind CEO Demis Hassabis 和 Gemini 团队副总裁 Josh Woodward 进行了一场深度对话,聊到了 Gemini 3 的很多细节内容。

具体来说,谷歌这次不仅要在模型层面给大家“炫技”,还同时把重点放在了一个更枯燥、但对商业世界更致命的词上:效率。

在 AI 领域,有一个公开的秘密:模型越聪明,推理成本就越高。这也是为什么很多所谓的“杀手级应用”至今还停留在 PPT 阶段,因为你烧不起那个钱。

谷歌这次干了一件很“谷歌”的事。他们通过极致的“蒸馏技术”(Distillation),硬生生把顶尖模型的运行成本压到了地板上。当你能在数十亿次日均搜索请求中调用 Gemini 3 而不破产时,这游戏规则就变了。

Demis 在访谈里提到了一个很有意思的观点:他们在成本与性能的帕累托前沿(Pareto frontier)上保持领先。

这话翻译成人话就是:比我聪明的没我便宜,比我便宜的没我聪明。

另一个很有意思的变化,是模型“人设”的调整。

过去几年,我们见过太多试图扮演“知心姐姐”的 AI 了。你问它一个代码问题,它先夸你思路清奇,再给你熬一碗鸡汤,最后才吞吞吐吐地给出答案。

Gemini 3 似乎正在戒掉这种“讨好型人格”。

Josh Woodward 提到,新模型变得更“简洁、切中要点”。这甚至被认为非常适合那些“头脑封闭”的用户。我觉得这才是工具该有的样子。当我想修水管的时候,我不需要扳手跟我谈论人生哲理,我只需要它能拧紧螺丝。

这种“去人格化”其实是另一种形式的“极客化”。它不再试图模仿人类的情感交互,而是专注于成为一个极其高效的信息处理器和逻辑推理机。比如 Demis 提到现在的“氛围编程”(vibe coding),听起来很玄乎,其实就是让 AI 真正理解程序员当下的语境,而不是傻乎乎地补全代码。

而关于那个终极问题——AGI(通用人工智能)到底什么时候来?

Demis 的回答很诚实,也很克制:5 到 10 年

在这个人人都在喊“明年就实现 AGI”的浮躁当下,这个时间表听起来甚至有点保守。但他指出的路径非常清晰:仅仅靠堆算力、堆数据(Scaling Laws)可能不够了,我们需要一两个本质上的研究突破。

他在访谈中特别提到了推理(Reasoning)、记忆(Memory)以及世界模型(World Models)。这三个词,基本上圈定了下一阶段 AI 战争的主战场。现在的模型大多还是“概率鹦鹉”,它们并不真正理解物理世界的因果律。只有当 AI 建立起对这个世界的内在模型,知道“杯子掉在地上会碎”不仅仅是文本里的统计规律,而是一个物理事实时,我们才算真正摸到了 AGI 的门槛。

今年年末的这一轮发布,或许标志着谷歌在 AI 战场上,终于结束了漫长的“防御姿态”,开始真正挥拳反击。

以下为对话内容:

主持人:Demis,Josh,欢迎来到 Hard Fork 节目。

Demis Hassabis:很高兴来到这里。

主持人:两年前,桑达尔·皮查伊跟我们打比方说,Bard 就像一辆经过改装的本田思域,正在跟一堆超跑赛车。那 Gemini 3 算是什么车?

Josh Woodward:这个问题刁钻。Demis,你要不来接这招?

Demis Hassabis:我敢打赌它肯定比本田思域快。其实我不太用汽车来打比方,也许它算是一辆那种超酷的直线加速 Top Fuel 赛车吧。

主持人:好吧。现在大家对这个模型都很兴奋。我们听到一些早期测试者的反馈,显然你们也展示了很多令人印象深刻的基准测试数据。那么具体来说,Gemini 3 能做到哪些以前的 AI 模型做不到的事?

Josh Woodward:我先来吧。有几点特别突出。

第一,我们开始看到这个模型在推理能力上表现出色,能够同时思考多个步骤。以前的模型有时候聊着聊着就思绪断片了,或者跑偏了,这一个就好得多。第二点就是各种全新的生成式界面。这是我们在创建新型交互界面方面最强的模型,它能真正给用户提供定制化的设计和答案。第三点我觉得是编程,我们在编程本身投入了巨大精力。你会看到很多编程示例,包括像 Google Anti-Gravity 这样即将推出的新产品展示。

主持人:有种观点认为,对于普通用户来说,聊天这个场景已经“解决”得差不多了。也就是说,普通用户用 Gemini 这样的产品,几乎想不出什么问题能问出比上一代模型有质的飞跃的答案。对于 Gemini 3,你们觉得这种说法站得住脚吗?普通人真的能感觉到差别吗?

Josh Woodward:我们在测试中看到的一点是——Demis 你也可以补充——这个模型更简洁、更有表现力。它开始用一种更容易理解的方式呈现信息,我觉得这对大多数人来说是立竿见影的体验提升。然后更有趣的是这些模型开始与其他类型的信息进行交互

我们经常谈论学生如何用它学习,或者在获得你许可的情况下,它如何连接你其他谷歌产品中的数据。这些方式表明它正在超越传统的文本问答交互。

Demis Hassabis:对,我想补充的是,你会发现它在通用事物的可靠性上高得惊人。而且我们在所谓的“人设”(我们内部叫 persona),也就是它的风格上下了很大功夫。我觉得它更简练,更切中要害,很有帮助。它的风格更好了,跟它头脑风暴或者使用它的时候,感觉更让人愉悦。另外,我觉得在某些方面它实现了某种阶梯式的跨越,比如“氛围编程”。最近我重拾了游戏编程的爱好,我打算圣诞假期给自己定几个小项目,因为我觉得它在前端开发之类的任务上已经达到了极其有用、极其能干的程度,这可能是以前的版本不太擅长的。

主持人:Demis,上次五月份你来节目的时候说,你认为我们距离通用人工智能(AGI)还有五到十年,中间可能还需要几次重大突破。现在看了 Gemini 3 的表现,你的时间表有变化吗?或者说它包含了你认为必要的那些突破吗?

Demis Hassabis:没有,我觉得一切都在完全按计划进行。我们对这一进展非常满意。这是个绝对惊艳的模型,完全符合我的预期,也延续了我们要打造 Gemini 之初设定好的轨迹——这实际上是过去几年全行业最快的发展速度。我们会继续保持这个轨迹。

但在那之上,我仍然认为需要这一两个关键点,才能真正实现通用智能所期望的那种全面的一致性。还有在推理和记忆上的改进。或许还需要像世界模型这样的概念——你知道我们也在做 Simo 和 Genie 这种项目——它们会建立在 Gemini 之上,但在不同维度进行扩展。要完全解决具身智能(physical intelligence)这类问题,其中一些想法是必不可少的。所以我认为两方面都是真的:我对 Gemini 3 的进展非常满意,我想大家会感到惊喜;但它也是在我们预期的进度之内。这意味着还要五到十年,并且可能还需要一两项突破。

主持人:你提到了 Gemini 3 的风格。最近关于 AI 伴侣以及人们与它们建立关系的讨论很多。你们如何定位 Gemini 3 的个性?你们希望用户和它建立什么样的关系?

Josh Woodward:我想说在 App 里,Casey,我们团队真的更倾向于把它看作一个工具。它是帮你理清思路、披荆斩棘搞定日常琐事的东西。无论是在不同类型的问题上协助你,还是帮你创作,这才是我们看到它发光发热的地方。如果你把视野拉大,看看 Gemini 或者我们的 NotebookLM、Flow 这些项目,我们真的是在思考如何让 AI 成为你工具箱里的超能力工具,不管是写作、研究还是做视频。这是我们的重心。随着时间推移,我们团队更感兴趣的是追踪像“我们帮你完成了多少任务”这样的新指标。这有点像最早期的谷歌搜索:你来了,找到答案或者跳到网页,然后继续你的生活。

主持人:在 Gemini 3 发布前的日子里,你们的一些竞争对手表现得很紧张。我觉得他们也听到了同样的风声,说这模型相当厉害。舆论可能正在从谷歌在 AI 领域苦苦追赶,转变为现在处于领跑地位,或者至少是领导者之一。你们觉得谷歌现在在 AI 竞赛中领先吗?

Demis Hassabis:听着,你们很清楚,这是一个极其惨烈的竞争环境,可能是史上最激烈的。所以,唯一重要的事情就是你自己的进步速度。这是我们关注的焦点,我们对此很满意。

我其实不把它看作什么“重夺领先”之类的。我们一直都是这项研究的先驱。现在的关键是要找到节奏,确保这些研究成果能转化到下游的所有产品中。我觉得我们已经渐入佳境了。不论是作为谷歌“动力核心”的 DeepMind,还是 Gemini App、NotebookLM 这些 AI 原生产品,亦或是为地图、YouTube、安卓、搜索这些现有的谷歌产品注入 AI 动力,甚至是以 AI 为先的视角重新构想它们。这进展得非常顺利。我觉得我们在这场进化中才走到一半,但看到用户对这些新功能——比如 Workspace 和 Gmail 里的功能——表现出的价值感和兴奋感,真的很令人激动。那里几乎有无限的可能性。所以,我们对这些以及我们正在构想和原型的 AI 原生产品都感到非常兴奋。

主持人:上周我们节目请了一位历史学家,他用了 AI Studio 里一个未发布的谷歌模型,结果被震撼到了,因为模型能转录非常古老的文件,还能正确推理出——你知道的——19 世纪加拿大皮毛贸易里的食糖计量单位。你能明确告诉我们,这哥们儿用的是 Gemini 3 吗?

Josh Woodward:这个我不确定。不过我得说,这模型在建立这类关联上确实神了。我不知道那位历史学家是不是用了旧文档的照片或者日记之类的……

主持人:对,他就是这么干的。

Josh Woodward:它确实很擅长这个。像我这种字迹潦草的人,拍一张笔记照片给它,它处理起来毫不费力,简直小菜一碟。

主持人:你刚才提到会把这个集成到搜索旁边的 AI 模式里。这是否意味着你们找到了一种比以前更高效、更便宜的方法来运行这个模型?

Demis Hassabis:我觉得除了模型本身的性能不断提升外,我们做得特别好的一点就是模型的效率。我们开创并率先使用的模型蒸馏技术以及其他许多技术,现在都派上了用场。这显然是必须的,因为我们有像“AI 概览”这样极端的应用场景,必须服务数十亿用户。当然,我们的云客户和企业客户也非常看重这种成本效益。我们一直努力在成本与性能的帕累托前沿(Pareto frontier)上保持领先。无论你在乎性能还是在乎成本,在这个模型家族里总有一款适合你。当然今天我们只发布了 Pro,但我们在 3.0 时代还有其他系列的型号在开发中,很快大家就会看到了。

主持人:好像每次发新模型,我们都要重新讨论一遍 Scaling Laws,以及是不是开始出现边际收益递减了。我都能猜到接下来几天推特上那几个账号会说什么。所以在他们开喷之前,我想问问你们针对 Gemini 3 是怎么看这个问题的?

Demis Hassabis:我们对 Gemini 3 相比 2.5 的进步非常满意。正如前面所说,这个进步基本符合预期,完全按计划进行。但这并不意味着就不存在某种边际收益递减。人们听到“递减”就觉得要么是零,要么是指数级增长,其实中间还有个过渡。可能它不会每个时代都指数级翻倍,但它依然是稳赚不赔的投资,回报极高。我们正处于这个阶段。正如我所说,虽然还要看后续发展,但我怀疑要通往 AGI 还需要一两个研究突破。但在此期间,你显然需要这种规模化的基础模型,也就是我们今天正在构建并不断看到进步的多模态基础模型。

主持人:在你们今天展示的众多基准测试中,哪一个对普通用户来说最重要?

Josh Woodward:这个问题很好。我觉得大多数人不会像我们这样盯着基准测试看,但基准测试始终是一个代理指标。比如突破 LM Arena 的 1500 分大关,这很棒。但真正重要的是产品中的用户满意度。令人鼓舞的是,这两者是同向发展的,互为良好的印证。所以最终我们会公布所有基准测试数据,我们为此感到自豪,这代表了惊人的进步,但你也必须把它转化为有意义的产品体验。我们在每次发布中都试图兼顾这两点。

主持人:模型能力增强后,有没有出现什么新的危险能力或者安全隐患?

Demis Hassabis:我们在发布这个模型上花了很长时间,因为它是前沿模型,有一些新能力。就像你从基准测试看到的,它非常强悍。正如 Josh 所说,我们在内部不仅仅盯着这些基准分看,它们只是整体性能的代理指标,所以我们关注的是全方位的表现以及用户的最终体验。我们在安全测试的各个维度上投入了大量时间,与安全研究所合作,也找了外部测试人员,当然还有大量的内部测试。可以说,这是我们迄今为止测试得最彻底的一个模型。

主持人:你想提一下那些冒出来的“新能力”吗?不管是安全方面的还是别的?有没有什么让你觉得:“好吧,我们必须得把这个送给外部研究人员好好查查”?

Demis Hassabis:怎么说呢,我们只是在工具调用、函数调用这些事情上下了很大功夫。显然这些对编程能力极其重要,开发者也需要,对推理能力也很关键。但也正是这些能力让它在更具风险的领域——比如网络攻防——变得更强了。所以当我们为了好的用例去提升这些维度时,必须加倍小心,持续检查各种指标,确保它们不被滥用。

主持人:我们现在处于 AI 泡沫中吗?

Demis Hassabis:这个问题的答案太非黑即白了。我个人的观点是,AI 行业的某些部分可能确实有泡沫。比如有些种子轮融资,光靠几页 PPT 什么都没有,就能融个上百亿,这看起来确实像是泡沫初现的迹象。

但另一方面,我们也看到了大量惊人的工作和价值。不仅仅是像 Gemini App、NotebookLM 这些新产品领域,往远了看还有机器人、游戏。我是做游戏出身的,想到这儿我就手痒。还有我们和 Isomorphic 以及 Waymo 在做的药物研发,这些都是全新的蓝海领域。它们可能需要一段时间才能成熟为数千亿规模的产业,但我认为其中有半打到一打的机会,Alphabet 会参与其中,这让我很兴奋。

至于眼前的回报,我们有“动力核心”这部分,把 AI 推送到数十亿人每天使用的产品中。点子多到简直执行不过来。怎么重构 Workspace?怎么搞安卓、YouTube?潜力太大了,这将带来近期的收入和直接回报,同时我们在投资未来。更别提云收入和 TPU 那些了,那也将是巨大的。所以不管有没有泡沫,我对 Alphabet 的处境感觉很好。我们的工作就是在两种情况下都赢。如果没有泡沫,大家继续嗨,那我们抓住机会;如果有泡沫,出现回调,我觉得我们也处于最有利的位置去应对那种局面。

主持人:如果有人问:“嘿,听说 Gemini 3 刚出,它到底能干啥?”你会建议听众掏出手机或电脑演示什么例子?

Josh Woodward:Gemini 的图像模型(Nano banana)依然是世界顶尖的。我会建议你就掏出手机——iPhone、安卓都行——拍张自拍,把自己放进画面里编辑一下。大家依然很热衷于玩这个,特有意思。然后再给他们展示 Gemini 3 的其他新功能。我们发现很多人就是冲着这些有趣的用例来的,然后才开始尝试 App 的其他部分。

原视频链接:https://youtu.be/rq-2i1blAlU?si=7LtLg4_0NGbsNATU

相关内容

热门资讯

北京老旧小以价换量趋势显著 部... 来源:@第一财经日报微博 【#北京老旧小以价换量趋势显著...
28岁小伙吃隔夜烧饼,10小时... 近日,河南郑州一28岁小伙以为冬天气温低,烧饼常温放一夜没事,第二天也没加热,直接食用,没想到仅10...
贾国龙:野心之外 来源:YOUNG财经漾财经资料图。贾国龙:野心之外徐爱之11月是餐饮业传统的淡季。本月,西贝还在发“...
北京琉球国人墓地遗址 :新修祭... 【#北京琉球国人墓地遗址# :新修祭祀台、立起文保碑】#琉球民族英雄长眠北京# 琉球在明清两代曾是与...
香港十大奇案,恐怖离奇,步步惊... 文 | 河 西在香港这座城市的历史上,发生过很多奇案。比如1982年雨夜屠夫案、1999年Hello...