谷歌一次更新N个产品：要让Gemini成为世界模型，智能眼镜回归了_热点

谷歌一次更新N个产品：要让Gemini成为世界模型，智能眼镜回归了

创始人

2025-05-22 17:39:37

作者｜周雅

太平洋时间5月20日上午，在加州山景城海岸线圆形剧场（Shoreline Amphitheatre），空气中弥漫着咖啡香气和一种几乎能触摸到电子脉冲般的兴奋感，2025 Google I/O（谷歌开发者大会）开始了，而此时的我们，正处于这股AI浪潮的中心。

当现场倒计时结束，谷歌及Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）走上舞台，他以一个玩笑开场：

“听说今天是双子座月份（Gemini Season）的开始，这没什么特别的，因为在谷歌，每天都是双子座月份（Gemini season）。”这句略带凡尔赛的调侃，暗示了谷歌在AI领域的持续迭代。

他直言，“以往I/O前夕通常会‘憋大招’，因为想把最重磅的发布留到大会上；但在Gemini时代，谷歌更希望把最先进的模型更快推向用户、更快融入产品中，所以发布速度比任何时候都更快。”为了印证这一点，他还列举了一系列数字：自去年I/O以来，谷歌已发布了超过12个模型和研究突破+20多项AI产品和功能。

谷歌及Alphabet首席执行官桑达尔·皮查伊（Sundar Pichai）

所以今年的I/O，依然是应接不暇的产品发布节奏，给我最直观感受就是：谷歌要把Gemini变成世界模型，变成一个既能看能听能说，又能理解、跨设备为你执行各种任务的通用AI助手。用大白话说，就是感受到Gemini有种“活人感”，谷歌用行动诠释了什么叫做“研究即产品、产品即平台、平台即生态”。

当然，如果要梳理这场I/O的重点，此处有省流版：

· Gemini应用承载谷歌构建“通用AI助手”的雄心。通过融合Project Astra的视觉与情境感知能力，Gemini Live变得更加耳聪目明；Deep Research和Canvas赋予用户强大的信息处理、知识再创能力；Gemini in Chrome则将智能带入桌面浏览；而集成了Imagen 4和Veo 3的Gemini应用，更是让图像与视频创作触手可及；Agent Mode则预示着AI助手未来将能为我们处理多步骤任务。

· Gemini模型家族一切的“大脑”。无论是2.5 Pro的性能制霸、Flash的效率优化，还是DeepThink对推理极限的、Diffusion对文本生成范式的探索，都为上层应用的爆发提供动力。

· Gemini重塑谷歌搜素：谷歌搜索新增“AI模式”（AI Mode），提供高级推理、多模态交互、深度探索能力，它凭借查询、个性化上下文、深度研究、实时多模态交互、智能体辅助购物和任务处理等“组合拳”，在彻底重塑我们获取信息、解决问题、乃至完成现实世界任务的方式。

· 生成式AI领域的技术与艺术共创。 Lyria 2和Music AI Sandbox为音乐人而生；SynthID及其检测工具则为AI生成内容的可信度保驾护航；Veo与顶尖导演的合作，以及专为电影人打造的Flow工具，则预示着AI将在专业影视创作中越来越重要。

· 开发者生态的构建也是重中之重。异步编码智能体Jules的公测，Project Mariner计算机使用能力的开放，以及对开放智能体协议（如MCP）的支持，都在为开发者提供更强大的工具，降低构建复杂AI应用的门槛。

· 对人机交互的颠覆性探索。谷歌发布Android XR，有了Gemini加持的智能眼镜、耳机，可以在虚拟世界和物理世界之间架桥。

相当哇塞的Android XR

首当其冲，我们不得不提这次IO的压轴，也是把现场气氛推向高潮的发布——「Android XR」。

说到XR，就得说智能眼镜。而说到智能眼镜，就不得不提Google Glass。

曾经在2012年，谷歌在Google I/O大会上播放了这样一段画面：几名翼装飞行运动员准备跳伞，当机舱门打开，运动员依次跃入旧金山4000英尺的高空，降落在一座建筑附近，画面视角显示他们骑上自行车、穿过一个走廊、推开一扇门，最终来到了I/O的会议室现场——而这，一整段在当时看起来甚至有点抖动的画面，都是由运动员佩戴的Google Glass拍摄直播。这是谷歌智能眼镜的雏形，但却一直不温不火。

所谓念念不忘必有回想，这一次，谷歌希望把失去的夺回来。

谷歌XR业务的副总裁兼总经理Shahram Izadi现场指出：“Android是体验AI的最佳场所，今天你看到的许多Gemini突破性进展很快都将登陆Android……我们将把Gemini带到你的手表、汽车、甚至电视上，所以无论你身在何处，都有一个有用的AI助手让生活更便利。”

紧接着，Shahram提出一个引人深思的问题：“如果要以全新方式体验AI助手，应该用什么新型设备呢？”随后，他正式官宣Android XR——“Android XR是Gemini时代构建的首个Android平台，支持从头显、耳机、智能眼镜等各种设备。”

Shahram阐述了谷歌对XR设备形态的看法：“我们相信XR没有一刀切的方案，你会在一天中用不同的设备。例如，看电影、玩游戏或工作时，你会想要沉浸式头显。但在旅途中，你会想要轻便的眼镜，它可以在不掏出手机的情况下为你提供及时的信息。”

为了让大家直观感受，谷歌员工Nishtha Bhatia在现场来了一场Android XR智能眼镜的实时演示，从后台走到台前，与智能眼镜互动的完整视角。

从视频中可看出，它具备这些能力（看不到视频的请移步「科技行者公众号：itechwalker」）：

· 实时通讯与通知管理：Nishtha收到了Shahram发来的短信，并通过语音指令让Gemini回复并静音通知。

· 情境感知与信息检索：Nishtha对后台照片墙上的一支乐队感到好奇，问它乐队的名字，Gemini准确识别出那是湾区传奇摇滚乐队Counting Crows，并介绍了他们与Shoreline圆形剧场的渊源，甚至直接展示了乐队演出的旧照，还播放了乐队的歌曲。

· 记忆与信息提取：Nishtha让Gemini回忆，她之前在后台喝的咖啡杯上咖啡店的名称，Gemini准确回答出可能是“Bloomsgiving”，并描述了这家位于Castro街的咖啡店。

· 视觉搜索与导航：Gemini展示了该咖啡店的照片，并计算出步行前往所需的时间（约1小时），眼镜上可以显示导航方向和3D地图。

· 日程管理：Nishtha让Gemini向同事发送了下午3点在这家咖啡店喝咖啡的邀请。

· 拍照功能：在Shahram的提议下，Nishtha让Gemini为他们和现场观众合影，并将照片加到收藏夹。

· 实时语言翻译：作为最后即兴演示，Shahram（说波斯语）和Nishtha（说印地语）用各自的母语进行了对话。他们眼镜的画面实时显示在主屏幕上，并配有英语翻译字幕。

所以可以说，Android XR并不是雏形，而是能扛住实时演示压力的成熟产品：

1. Gemini on Headsets (头显上的Gemini)：Shahram介绍了三星的Project Moohan，这是首款AndroidXR设备。例如，在XR版的Google Maps中，用户只需让Gemini带路，就能“传送”到世界任何地方；用户可以与AI助手讨论看到的任何事物，并让它调出相关的视频和网站；他还描绘了在MLB应用中看比赛的场景，就像是置身体育场前排，同时与Gemini讨论球员和比赛数据。三星的Project Moohan将于今年晚些时候上市销售。

2. Android XR Glasses (安卓XR眼镜)：随后，Shahram将焦点转向了更具便携性的眼镜形态。“如你所知，我们研究眼镜已有十多年，从未停止。”他描述了Android XR眼镜的特性：轻便，专为全天佩戴而设计，眼镜与手机协同工作，让用户在解放双手的同时访问应用程序。他强调：“所有这些都使眼镜成为AI的自然形态，将Gemini的能力带到你所在的地方，所以，不像克拉克·肯特（超人），你戴上眼镜就能获得超能力。”

接下来，Shahram宣布了Android XR的合作历程：

· 首先，谷歌与三星共同构建了AndroidXR，并与高通合作为搭载骁龙的产品进行了优化。

· 其次，Android XR开发者预览版自去年发布以来，已有数百名开发者为该平台进行构建。

· 最后，谷歌也在为XR重新设计其核心应用，并且由于是Android平台，现有的手机和平板电脑应用也能在XR设备上运行。

图：谷歌现场官宣Gentle Monster和Warby Parker将成为首批采用Android XR的眼镜品牌。

集大成者的Gemini：又双叒叕升级了

压轴产品讲完后，当然得讲重要产品，也就是谷歌AI战略的基石——Gemini，这次主要讲的是Gemini 2.5 Pro与Flash的升级，各方面更强了。

怎么证明Gemini更强了呢，用数据说话！桑达尔·皮查伊特别提到了Gemini 2.5 Pro进展的迅速：Elo分数（衡量模型能力的一种指标）自第一代Gemini Pro以来提升了300多分；Gemini 2.5 Pro在LMArena排行榜所有类别中均名列前茅，并在多个基准测试中达到业界顶尖水平；在编码能力上，更新后的Gemini 2.5 Pro登顶WebDev Arena（一个专注于评估模型Web开发能力的排行榜）。这些成就的背后，是开发者社区的广泛认可，例如在AI代码编辑器Cursor上，Gemini是年度增长最快的模型，每分钟产生数十万行代码。

此外，轻量级的Gemini 2.5 Flash也迎来了显著升级，它在推理、多模态、代码和长上下文等关键基准测试中表现更佳，同时效率也进一步优化，评估显示其token消耗减少了20-30%。对于追求极致效率和低成本应用的开发者而言，这无疑是个福音。

皮查伊还分享了一个有趣的成绩：几周前，Gemini成功通关了经典游戏了《精灵宝可梦：蓝》（Pokémon Blue)，获得了八枚徽章，击败了四天王和冠军，他风趣地称之为“离实现API又近了一步，因为API是——Artificial Pokémon Intelligence(人工·宝可梦·智能)”。这个巧妙的谐音梗再次引发现场一片笑声。

而关于Gemini 2.5 Pro的一个更新亮点，是上线了增强推理模式——「Deep Think（深度思考」，DeepThink采用了谷歌在思考和推理方面的前沿研究，包括并行技术，其表现可圈可点：在数学基准测试2025 USAMO上取得了好成绩，在编程竞赛基准LiveCodeBench上领先，在测试多模态推理的MMMU上也获得了84.0%的高分。不过，尽管DeepThink潜力巨大，谷歌也保持了足够的审慎，强调由于Deep Think定义了前沿能力，需要更多时间进行安全评估并听取安全专家的意见，目前会先通过Gemini API提供给受信任的测试者，以收集反馈，然后再考虑广泛推广。

构建通用AI助手：从Project Astra的实时感知，到Project Mariner的多任务智能体

当Google DeepMind首席执行官Demis Hassabis登台，他的演讲总是饱含对AGI（通用人工智能）的思考。

图：Google DeepMind首席执行官Demis Hassabis

这次，他描绘了一个AGI蓝图：将Gemini打造成世界模型（world model），是开发通用AI助手的关键，即一种“个性化（Personal）、主动（Proactive）、强大（Powerful）的AI”，这种AI能理解物理和数字环境，并能跨设备代表用户规划和采取行动。这是Gemini的终极目标，也是谷歌迈向AGI的重要一步。

为了让这个愿景更加具象，Hassabis重点介绍了Project Astra的进展。去年作为研究原型首次亮相的Astra，其视频理解、屏幕共享、记忆等能力令人印象深刻。在过去一年里，这些能力被逐步整合到Gemini Live中。

Hassabis透露，团队持续改进并探索前沿创新，例如，将语音输出升级为更自然的原生音频，改进了记忆功能，并增加了计算机控制能力。目前，这些新功能正在通过受信任的测试者收集反馈，并计划将其引入Gemini Live、搜索中的新体验、面向开发者的Live API、眼镜等新形态设备。他特别强调：“在这一过程的每一步，安全和责任都是我们工作的核心。”

现场播放的一段Project Astra演示视频（看不到视频的请移步「科技行者公众号：itechwalker」），展示了AI在辅助用户修理自行车等复杂任务中的实力。Astra能够帮助用户查找手册、定位刹车部件、搜索YouTube修复视频、查阅邮件获取零件信息、高亮显示零件盒、呼叫自行车店询问库存，甚至在对话被打断后仍能记住上下文并继续提供帮助。这段演示充分展现了一个理想中的通用AI助手所应具备的多任务处理、信息检索、工具调用、情境记忆和主动建议等能力。

随后，话题焦点转移到了Project Mariner，一个探索人与智能体交互未来的研究原型，始于浏览器环境。自去年12月启动以来，Mariner与一组受信任的测试者紧密合作，收集反馈并改进其实验性功能。Hassabis宣布：“Project Mariner现在包含一个智能体系统，可以同时完成多达十个不同的任务。这些智能体可以帮助你查找信息、预订、购物、做研究等等——所有这些都可以同时进行。”更新后的Project Mariner已向美国的Google AI Ultra订阅用户开放，其计算机使用能力也将被引入Gemini API，并计划在年内将更多功能引入谷歌产品。

Hassabis总结道：“通过这项以及我们所有开创性的工作，我们正在构建更个性化、更主动、更强大的AI，丰富我们的生活，加速科学进步的步伐，并迎来一个充满发现和奇迹的新黄金时代。”

创意伊甸园：Veo 3携音入画，Imagen 4精雕细琢，Flow剪AI电影

当Google DeepMind的产品管理副总裁Eli Collins走上舞台，整个会场的氛围变得更加轻松和富有艺术感，他揭示了谷歌在生成式模型领域的最新突破——Veo 3、Imagen 4、以及一款名为Flow的全新AI电影制作工具。

1、视频生成模型Veo 3。它首次实现了视频与音频的同步生成，这代表AI生成的视频场景将拥有更强的沉浸感——城市街道场景中的交通噪音、公园里鸟儿的歌唱，甚至角色间的对话，都能被自然融入。Collins强调：“Veo 3在文本和图像提示理解、真实世界物理模拟以及准确的口型同步方面表现出色。你可以用简短的故事作为提示，模型就能生成生动的视频片段。”Veo 3即日起在美国通过Gemini应用向Ultra订阅用户开放，并在Flow工具中可用，企业用户则可通过Vertex AI使用。

2、AI电影制作工具——Flow。它被Eli形容成一个“与创作者共同打造，并为创作者服务”的工具，它将Google DeepMind最先进的模型——Veo、Imagen和Gemini整合在一起，让用户能够无缝创作电影片段、场景和故事。

比如，你可以用自然语言向Flow描述镜头，在一个便捷的界面管理故事元素（演员、地点、物体、风格），并利用Flow将叙事编织成精美的场景。Flow即日起向美国的Google AI Pro和Ultra计划订阅用户开放，未来将登陆更多国家。

3、图像生成模型Imagen 4。它在复杂织物、水滴、动物毛发等细节上的清晰度更佳，能够生成多种宽高比、最高2K分辨率的图像，更适合打印或演示。此外，它在拼写和排版方面的能力显著增强，使得创作贺卡、海报甚至漫画变得更加容易。Imagen 4已在Gemini应用、Whisk、Vertex AI以及Workspace中的Slides、Vids、Docs等多个产品中可用。Collins还预告，不久将推出Imagen 4的快速版本，速度比Imagen 3快高达10倍。

4、音乐生成模型Lyria 2。今年4月，由Lyria 2驱动的Music AI Sandbox扩大了访问范围，为音乐家、制作人和词曲作者提供了一套实验性工具，激发新的创作可能性。Collins表示：“Lyria 2带来了强大的作曲能力和无尽的探索空间，现已通过YouTube Shorts向创作者开放，并通过Vertex AI向企业开放。”此外，驱动MusicFX DJ的交互式音乐生成模型Lyria RealTime也已通过API和AI Studio提供，让任何人都能实时交互式地创作、控制和表演生成式音乐。

AI重塑搜索：从信息获取，到智能洞察

谷歌搜索业务负责人Liz Reid的登场，总是伴随着对信息获取方式的深刻洞察。

她首先回顾了去年I/O推出的AI Overviews（AI概览）所带来的深远影响，人们开始向谷歌提出更多、更复杂、更长、甚至多模态的问题。AI Overviews使得用户更容易提出任何问题并获得有用的回应，同时附带网页链接。

Reid指出：“AI Overviews是过去十年中搜索领域最成功的发布之一。” 在美国和印度等主要市场，AI Overviews使相关查询类型的使用量增加10%以上，且提供了业界最快的AI响应速度。

Reid强调，谷歌正持续通过AI推进搜索，从信息获取迈向智能洞察。今天，她为我们展示了搜索未来的最新进展。

核心发布是在Google Search中新增「AI Mode」模式。Reid将其描述为“我们最强大的AI搜索，具有更高级的推理和多模态能力，并能通过后续问题和网页链接进行更深入的探索。”

未来几个月内，谷歌将在Labs中向「AI模式」用户推出几项高级功能：AI模式中的Deep Search（深度搜索）、搜索中的实时能力（Search Live）、AI模式中的个性化上下文、自定义图表、AI购物伙伴等。

消费者购物产品副总裁Lilian Rincon介绍了AI模式下的购物体验。在AI模式下，当用户表达购物意图时，例如寻找一个“可爱的旅行包”，AI会理解并展示图片。如果用户进一步缩小范围，比如“适合五月份去俄勒冈州波特兰旅行的包”，AI模式会启动“查询扇出”，同时运行多个搜索来确定适合雨天和长途旅行的包应具备哪些特性，然后推荐防水且易于取放物品的选项。屏幕右侧的面板会随着用户的提问动态更新相关的产品和图片，帮助用户精确找到目标或发现新品牌。

当用户决定购买后，智能体结账功能将大显身手。用户只需在任何产品列表上点击“跟踪价格”，设置好尺寸、颜色等偏好、以及期望花费的金额。一旦价格下降到设定范围，用户会收到通知。如果准备购买，只需确认购买细节并点击“为我购买”。在后台，AI会将商品添加到商家网站的购物车中，并通过Google Pay安全地代表用户完成结账。

而最让现场观众感到新奇的，莫过于虚拟试衣功能。用户只需上传一张自己的照片，就能虚拟试穿Shopping Graph中数十亿件服装，带来一种真正“量身定制”的试穿体验。

AI向善：谷歌践行社会责任

在活动接近尾声时，桑达尔·皮查伊再次回到舞台，他不仅回顾了当天的发布，更将视野投向了AI技术在解决现实世界问题、赋能公益事业、以及履行社会责任方面的意义。

皮查伊首先强调，AI带来的机遇是巨大的，而确保其益处惠及尽可能多的人，是开发者、技术构建者和问题解决者的共同责任。随后，他分享了几个令他深受启发的AI应用实例：

谷歌与合作伙伴建立了一个Firesat项目，针对日益严峻的全球野火问题，利用多光谱卫星图像和AI技术，实时监测野火威胁；在飓风海伦（Hurricane Helene）期间，谷歌旗下无人机公司Wing与沃尔玛和红十字会合作，利用无人机进行救援物资的运送。

在演讲的最后，皮查伊分享了一个个人经历，强调了他对技术改善生活的深刻感悟：

“改善生活的机会，我从不认为理所当然，最近的一次经历让我深有体会。我和我的父母在旧金山，他们想做的第一件事就是乘坐Waymo（谷歌旗下的自动驾驶汽车公司），就像许多其他游客一样。”他回忆道，“我以前也坐过Waymo，但看着我80多岁的父亲坐在前排，完全被震撼的样子，我以全新的视角看待了这项进步。这提醒我们，技术拥有激励我们、推动我们前进的不可思议的力量。我迫不及待地想看到我们接下来将共同创造出哪些令人惊叹的事物。”

按照往年惯例，皮查伊再次玩了一个老梗：数现场说了多少遍AI。

他说：“今天，你们听到了很多关于分数。但我知道，有一个指标是你们都在等待的——我们的AI计数器！”

随着他的话，大屏幕上出现了一个“AI提及次数排行榜”，Gemini以95次高居榜首。

皮查伊风趣地说：“看起来我们有了一个新晋者，Gemini以95次领先，非常令人振奋。”

现场再次响起一片掌声。

上一篇：涉嫌严重违纪违法，贾建威被查

下一篇：王楚钦/孙颖莎战胜日本组合晋级混双4强

谷歌一次更新N个产品：要让Gemini成为世界模型，智能眼镜回归了

相关内容

热门资讯