谷歌一次更新N个产品:要让Gemini成为世界模型,智能眼镜回归了
创始人
2025-05-22 17:39:37
0

作者|周雅

太平洋时间5月20日上午,在加州山景城海岸线圆形剧场(Shoreline Amphitheatre),空气中弥漫着咖啡香气和一种几乎能触摸到电子脉冲般的兴奋感,2025 Google I/O(谷歌开发者大会)开始了,而此时的我们,正处于这股AI浪潮的中心。

当现场倒计时结束,谷歌及Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)走上舞台,他以一个玩笑开场:

“听说今天是双子座月份(Gemini Season)的开始,这没什么特别的,因为在谷歌,每天都是双子座月份(Gemini season)。”这句略带凡尔赛的调侃,暗示了谷歌在AI领域的持续迭代。

他直言,“以往I/O前夕通常会‘憋大招’,因为想把最重磅的发布留到大会上;但在Gemini时代,谷歌更希望把最先进的模型更快推向用户、更快融入产品中,所以发布速度比任何时候都更快。”为了印证这一点,他还列举了一系列数字:自去年I/O以来,谷歌已发布了超过12个模型和研究突破+20多项AI产品和功能。

谷歌及Alphabet首席执行官桑达尔·皮查伊(Sundar Pichai)

所以今年的I/O,依然是应接不暇的产品发布节奏,给我最直观感受就是:谷歌要把Gemini变成世界模型,变成一个既能看能听能说,又能理解、跨设备为你执行各种任务的通用AI助手。用大白话说,就是感受到Gemini有种“活人感”,谷歌用行动诠释了什么叫做“研究即产品、产品即平台、平台即生态”。

当然,如果要梳理这场I/O的重点,此处有省流版:

· Gemini应用承载谷歌构建“通用AI助手”的雄心。 通过融合Project Astra的视觉与情境感知能力,Gemini Live变得更加耳聪目明;Deep Research和Canvas赋予用户强大的信息处理、知识再创能力;Gemini in Chrome则将智能带入桌面浏览;而集成了Imagen 4和Veo 3的Gemini应用,更是让图像与视频创作触手可及;Agent Mode则预示着AI助手未来将能为我们处理多步骤任务。

· Gemini模型家族一切的“大脑”。无论是2.5 Pro的性能制霸、Flash的效率优化,还是DeepThink对推理极限的、Diffusion对文本生成范式的探索,都为上层应用的爆发提供动力。

· Gemini重塑谷歌搜素:谷歌搜索新增“AI模式”(AI Mode),提供高级推理、多模态交互、深度探索能力,它凭借查询、个性化上下文、深度研究、实时多模态交互、智能体辅助购物和任务处理等“组合拳”,在彻底重塑我们获取信息、解决问题、乃至完成现实世界任务的方式。

· 生成式AI领域的技术与艺术共创。 Lyria 2和Music AI Sandbox为音乐人而生;SynthID及其检测工具则为AI生成内容的可信度保驾护航;Veo与顶尖导演的合作,以及专为电影人打造的Flow工具,则预示着AI将在专业影视创作中越来越重要。

· 开发者生态的构建也是重中之重。 异步编码智能体Jules的公测,Project Mariner计算机使用能力的开放,以及对开放智能体协议(如MCP)的支持,都在为开发者提供更强大的工具,降低构建复杂AI应用的门槛。

· 对人机交互的颠覆性探索。谷歌发布Android XR,有了Gemini加持的智能眼镜、耳机,可以在虚拟世界和物理世界之间架桥。

相当哇塞的Android XR

首当其冲,我们不得不提这次IO的压轴,也是把现场气氛推向高潮的发布——「Android XR」。

说到XR,就得说智能眼镜。而说到智能眼镜,就不得不提Google Glass。

曾经在2012年,谷歌在Google I/O大会上播放了这样一段画面:几名翼装飞行运动员准备跳伞,当机舱门打开,运动员依次跃入旧金山4000英尺的高空,降落在一座建筑附近,画面视角显示他们骑上自行车、穿过一个走廊、推开一扇门,最终来到了I/O的会议室现场——而这,一整段在当时看起来甚至有点抖动的画面,都是由运动员佩戴的Google Glass拍摄直播。这是谷歌智能眼镜的雏形,但却一直不温不火。

所谓念念不忘必有回想,这一次,谷歌希望把失去的夺回来。

谷歌XR业务的副总裁兼总经理Shahram Izadi现场指出:“Android是体验AI的最佳场所,今天你看到的许多Gemini突破性进展很快都将登陆Android……我们将把Gemini带到你的手表、汽车、甚至电视上,所以无论你身在何处,都有一个有用的AI助手让生活更便利。”

紧接着,Shahram提出一个引人深思的问题:“如果要以全新方式体验AI助手,应该用什么新型设备呢?”随后,他正式官宣Android XR——“Android XR是Gemini时代构建的首个Android平台,支持从头显、耳机、智能眼镜等各种设备。”

Shahram阐述了谷歌对XR设备形态的看法:“我们相信XR没有一刀切的方案,你会在一天中用不同的设备。例如,看电影、玩游戏或工作时,你会想要沉浸式头显。但在旅途中,你会想要轻便的眼镜,它可以在不掏出手机的情况下为你提供及时的信息。”

为了让大家直观感受,谷歌员工Nishtha Bhatia在现场来了一场Android XR智能眼镜的实时演示,从后台走到台前,与智能眼镜互动的完整视角。

从视频中可看出,它具备这些能力(看不到视频的请移步「科技行者公众号:itechwalker」):

· 实时通讯与通知管理:Nishtha收到了Shahram发来的短信,并通过语音指令让Gemini回复并静音通知。

· 情境感知与信息检索:Nishtha对后台照片墙上的一支乐队感到好奇,问它乐队的名字,Gemini准确识别出那是湾区传奇摇滚乐队Counting Crows,并介绍了他们与Shoreline圆形剧场的渊源,甚至直接展示了乐队演出的旧照,还播放了乐队的歌曲。

· 记忆与信息提取:Nishtha让Gemini回忆,她之前在后台喝的咖啡杯上咖啡店的名称,Gemini准确回答出可能是“Bloomsgiving”,并描述了这家位于Castro街的咖啡店。

· 视觉搜索与导航:Gemini展示了该咖啡店的照片,并计算出步行前往所需的时间(约1小时),眼镜上可以显示导航方向和3D地图。

· 日程管理:Nishtha让Gemini向同事发送了下午3点在这家咖啡店喝咖啡的邀请。

· 拍照功能:在Shahram的提议下,Nishtha让Gemini为他们和现场观众合影,并将照片加到收藏夹。

· 实时语言翻译:作为最后即兴演示,Shahram(说波斯语)和Nishtha(说印地语)用各自的母语进行了对话。他们眼镜的画面实时显示在主屏幕上,并配有英语翻译字幕。

所以可以说,Android XR并不是雏形,而是能扛住实时演示压力的成熟产品:

1. Gemini on Headsets (头显上的Gemini):Shahram介绍了三星的Project Moohan,这是首款AndroidXR设备。例如,在XR版的Google Maps中,用户只需让Gemini带路,就能“传送”到世界任何地方;用户可以与AI助手讨论看到的任何事物,并让它调出相关的视频和网站;他还描绘了在MLB应用中看比赛的场景,就像是置身体育场前排,同时与Gemini讨论球员和比赛数据。三星的Project Moohan将于今年晚些时候上市销售。

2. Android XR Glasses (安卓XR眼镜):随后,Shahram将焦点转向了更具便携性的眼镜形态。“如你所知,我们研究眼镜已有十多年,从未停止。”他描述了Android XR眼镜的特性:轻便,专为全天佩戴而设计,眼镜与手机协同工作,让用户在解放双手的同时访问应用程序。他强调:“所有这些都使眼镜成为AI的自然形态,将Gemini的能力带到你所在的地方,所以,不像克拉克·肯特(超人),你戴上眼镜就能获得超能力。”

接下来,Shahram宣布了Android XR的合作历程:

· 首先,谷歌与三星共同构建了AndroidXR,并与高通合作为搭载骁龙的产品进行了优化。

· 其次,Android XR开发者预览版自去年发布以来,已有数百名开发者为该平台进行构建。

· 最后,谷歌也在为XR重新设计其核心应用,并且由于是Android平台,现有的手机和平板电脑应用也能在XR设备上运行。

图:谷歌现场官宣Gentle Monster和Warby Parker将成为首批采用Android XR的眼镜品牌。

集大成者的Gemini:又双叒叕升级了

压轴产品讲完后,当然得讲重要产品,也就是谷歌AI战略的基石——Gemini,这次主要讲的是Gemini 2.5 Pro与Flash的升级,各方面更强了。

怎么证明Gemini更强了呢,用数据说话!桑达尔·皮查伊特别提到了Gemini 2.5 Pro进展的迅速:Elo分数(衡量模型能力的一种指标)自第一代Gemini Pro以来提升了300多分;Gemini 2.5 Pro在LMArena排行榜所有类别中均名列前茅,并在多个基准测试中达到业界顶尖水平;在编码能力上,更新后的Gemini 2.5 Pro登顶WebDev Arena(一个专注于评估模型Web开发能力的排行榜)。这些成就的背后,是开发者社区的广泛认可,例如在AI代码编辑器Cursor上,Gemini是年度增长最快的模型,每分钟产生数十万行代码。

此外,轻量级的Gemini 2.5 Flash也迎来了显著升级,它在推理、多模态、代码和长上下文等关键基准测试中表现更佳,同时效率也进一步优化,评估显示其token消耗减少了20-30%。对于追求极致效率和低成本应用的开发者而言,这无疑是个福音。

皮查伊还分享了一个有趣的成绩:几周前,Gemini成功通关了经典游戏了《精灵宝可梦:蓝》(Pokémon Blue),获得了八枚徽章,击败了四天王和冠军,他风趣地称之为“离实现API又近了一步,因为API是——Artificial Pokémon Intelligence(人工·宝可梦·智能)”。这个巧妙的谐音梗再次引发现场一片笑声。

而关于Gemini 2.5 Pro的一个更新亮点,是上线了增强推理模式——「Deep Think(深度思考」,DeepThink采用了谷歌在思考和推理方面的前沿研究,包括并行技术,其表现可圈可点:在数学基准测试2025 USAMO上取得了好成绩,在编程竞赛基准LiveCodeBench上领先,在测试多模态推理的MMMU上也获得了84.0%的高分。不过,尽管DeepThink潜力巨大,谷歌也保持了足够的审慎,强调由于Deep Think定义了前沿能力,需要更多时间进行安全评估并听取安全专家的意见,目前会先通过Gemini API提供给受信任的测试者,以收集反馈,然后再考虑广泛推广。

构建通用AI助手:从Project Astra的实时感知,到Project Mariner的多任务智能体

当Google DeepMind首席执行官Demis Hassabis登台,他的演讲总是饱含对AGI(通用人工智能)的思考。

图:Google DeepMind首席执行官Demis Hassabis

这次,他描绘了一个AGI蓝图:将Gemini打造成世界模型(world model),是开发通用AI助手的关键,即一种“个性化(Personal)、主动(Proactive)、强大(Powerful)的AI”,这种AI能理解物理和数字环境,并能跨设备代表用户规划和采取行动。这是Gemini的终极目标,也是谷歌迈向AGI的重要一步。

为了让这个愿景更加具象,Hassabis重点介绍了Project Astra的进展。去年作为研究原型首次亮相的Astra,其视频理解、屏幕共享、记忆等能力令人印象深刻。在过去一年里,这些能力被逐步整合到Gemini Live中。

Hassabis透露,团队持续改进并探索前沿创新,例如,将语音输出升级为更自然的原生音频,改进了记忆功能,并增加了计算机控制能力。目前,这些新功能正在通过受信任的测试者收集反馈,并计划将其引入Gemini Live、搜索中的新体验、面向开发者的Live API、眼镜等新形态设备。他特别强调:“在这一过程的每一步,安全和责任都是我们工作的核心。”

现场播放的一段Project Astra演示视频(看不到视频的请移步「科技行者公众号:itechwalker」),展示了AI在辅助用户修理自行车等复杂任务中的实力。Astra能够帮助用户查找手册、定位刹车部件、搜索YouTube修复视频、查阅邮件获取零件信息、高亮显示零件盒、呼叫自行车店询问库存,甚至在对话被打断后仍能记住上下文并继续提供帮助。这段演示充分展现了一个理想中的通用AI助手所应具备的多任务处理、信息检索、工具调用、情境记忆和主动建议等能力。

随后,话题焦点转移到了Project Mariner,一个探索人与智能体交互未来的研究原型,始于浏览器环境。自去年12月启动以来,Mariner与一组受信任的测试者紧密合作,收集反馈并改进其实验性功能。Hassabis宣布:“Project Mariner现在包含一个智能体系统,可以同时完成多达十个不同的任务。这些智能体可以帮助你查找信息、预订、购物、做研究等等——所有这些都可以同时进行。”更新后的Project Mariner已向美国的Google AI Ultra订阅用户开放,其计算机使用能力也将被引入Gemini API,并计划在年内将更多功能引入谷歌产品。

Hassabis总结道:“通过这项以及我们所有开创性的工作,我们正在构建更个性化、更主动、更强大的AI,丰富我们的生活,加速科学进步的步伐,并迎来一个充满发现和奇迹的新黄金时代。”

创意伊甸园:Veo 3携音入画,Imagen 4精雕细琢,Flow剪AI电影

当Google DeepMind的产品管理副总裁Eli Collins走上舞台,整个会场的氛围变得更加轻松和富有艺术感,他揭示了谷歌在生成式模型领域的最新突破——Veo 3、Imagen 4、以及一款名为Flow的全新AI电影制作工具。

1、视频生成模型Veo 3。它首次实现了视频与音频的同步生成,这代表AI生成的视频场景将拥有更强的沉浸感——城市街道场景中的交通噪音、公园里鸟儿的歌唱,甚至角色间的对话,都能被自然融入。Collins强调:“Veo 3在文本和图像提示理解、真实世界物理模拟以及准确的口型同步方面表现出色。你可以用简短的故事作为提示,模型就能生成生动的视频片段。”Veo 3即日起在美国通过Gemini应用向Ultra订阅用户开放,并在Flow工具中可用,企业用户则可通过Vertex AI使用。

2、AI电影制作工具——Flow。它被Eli形容成一个“与创作者共同打造,并为创作者服务”的工具,它将Google DeepMind最先进的模型——Veo、Imagen和Gemini整合在一起,让用户能够无缝创作电影片段、场景和故事。

比如,你可以用自然语言向Flow描述镜头,在一个便捷的界面管理故事元素(演员、地点、物体、风格),并利用Flow将叙事编织成精美的场景。Flow即日起向美国的Google AI Pro和Ultra计划订阅用户开放,未来将登陆更多国家。

3、图像生成模型Imagen 4。它在复杂织物、水滴、动物毛发等细节上的清晰度更佳,能够生成多种宽高比、最高2K分辨率的图像,更适合打印或演示。此外,它在拼写和排版方面的能力显著增强,使得创作贺卡、海报甚至漫画变得更加容易。Imagen 4已在Gemini应用、Whisk、Vertex AI以及Workspace中的Slides、Vids、Docs等多个产品中可用。Collins还预告,不久将推出Imagen 4的快速版本,速度比Imagen 3快高达10倍。

4、音乐生成模型Lyria 2。今年4月,由Lyria 2驱动的Music AI Sandbox扩大了访问范围,为音乐家、制作人和词曲作者提供了一套实验性工具,激发新的创作可能性。Collins表示:“Lyria 2带来了强大的作曲能力和无尽的探索空间,现已通过YouTube Shorts向创作者开放,并通过Vertex AI向企业开放。”此外,驱动MusicFX DJ的交互式音乐生成模型Lyria RealTime也已通过API和AI Studio提供,让任何人都能实时交互式地创作、控制和表演生成式音乐。

AI重塑搜索:从信息获取,到智能洞察

谷歌搜索业务负责人Liz Reid的登场,总是伴随着对信息获取方式的深刻洞察。

她首先回顾了去年I/O推出的AI Overviews(AI概览)所带来的深远影响,人们开始向谷歌提出更多、更复杂、更长、甚至多模态的问题。AI Overviews使得用户更容易提出任何问题并获得有用的回应,同时附带网页链接。

Reid指出:“AI Overviews是过去十年中搜索领域最成功的发布之一。” 在美国和印度等主要市场,AI Overviews使相关查询类型的使用量增加10%以上,且提供了业界最快的AI响应速度。

Reid强调,谷歌正持续通过AI推进搜索,从信息获取迈向智能洞察。今天,她为我们展示了搜索未来的最新进展。

核心发布是在Google Search中新增「AI Mode」模式。Reid将其描述为“我们最强大的AI搜索,具有更高级的推理和多模态能力,并能通过后续问题和网页链接进行更深入的探索。”

未来几个月内,谷歌将在Labs中向「AI模式」用户推出几项高级功能:AI模式中的Deep Search(深度搜索)、搜索中的实时能力(Search Live)、AI模式中的个性化上下文、自定义图表、AI购物伙伴等。

消费者购物产品副总裁Lilian Rincon介绍了AI模式下的购物体验。在AI模式下,当用户表达购物意图时,例如寻找一个“可爱的旅行包”,AI会理解并展示图片。如果用户进一步缩小范围,比如“适合五月份去俄勒冈州波特兰旅行的包”,AI模式会启动“查询扇出”,同时运行多个搜索来确定适合雨天和长途旅行的包应具备哪些特性,然后推荐防水且易于取放物品的选项。屏幕右侧的面板会随着用户的提问动态更新相关的产品和图片,帮助用户精确找到目标或发现新品牌。

当用户决定购买后,智能体结账功能将大显身手。用户只需在任何产品列表上点击“跟踪价格”,设置好尺寸、颜色等偏好、以及期望花费的金额。一旦价格下降到设定范围,用户会收到通知。如果准备购买,只需确认购买细节并点击“为我购买”。在后台,AI会将商品添加到商家网站的购物车中,并通过Google Pay安全地代表用户完成结账。

而最让现场观众感到新奇的,莫过于虚拟试衣功能。用户只需上传一张自己的照片,就能虚拟试穿Shopping Graph中数十亿件服装,带来一种真正“量身定制”的试穿体验。

AI向善:谷歌践行社会责任

在活动接近尾声时,桑达尔·皮查伊再次回到舞台,他不仅回顾了当天的发布,更将视野投向了AI技术在解决现实世界问题、赋能公益事业、以及履行社会责任方面的意义。

皮查伊首先强调,AI带来的机遇是巨大的,而确保其益处惠及尽可能多的人,是开发者、技术构建者和问题解决者的共同责任。随后,他分享了几个令他深受启发的AI应用实例:

谷歌与合作伙伴建立了一个Firesat项目,针对日益严峻的全球野火问题,利用多光谱卫星图像和AI技术,实时监测野火威胁;在飓风海伦(Hurricane Helene)期间,谷歌旗下无人机公司Wing与沃尔玛和红十字会合作,利用无人机进行救援物资的运送。

在演讲的最后,皮查伊分享了一个个人经历,强调了他对技术改善生活的深刻感悟:

“改善生活的机会,我从不认为理所当然,最近的一次经历让我深有体会。我和我的父母在旧金山,他们想做的第一件事就是乘坐Waymo(谷歌旗下的自动驾驶汽车公司),就像许多其他游客一样。”他回忆道,“我以前也坐过Waymo,但看着我80多岁的父亲坐在前排,完全被震撼的样子,我以全新的视角看待了这项进步。这提醒我们,技术拥有激励我们、推动我们前进的不可思议的力量。我迫不及待地想看到我们接下来将共同创造出哪些令人惊叹的事物。”

按照往年惯例,皮查伊再次玩了一个老梗:数现场说了多少遍AI。

他说:“今天,你们听到了很多关于分数。但我知道,有一个指标是你们都在等待的——我们的AI计数器!”

随着他的话,大屏幕上出现了一个“AI提及次数排行榜”,Gemini以95次高居榜首。

皮查伊风趣地说:“看起来我们有了一个新晋者,Gemini以95次领先,非常令人振奋。”

现场再次响起一片掌声。

相关内容

热门资讯

和评理 | “一带一路”促进共... 转自:千龙网华盛顿喜欢试图给人造成一种印象,即它的行动是高尚的,无可指责的,其所做的一切都是完全透明...
林诗栋、林高远止步8强,世乒赛... 在此次世乒赛的激烈角逐中,国乒男双遭遇重创,林诗栋与林高远遗憾止步 8 强。原本被寄予厚望的他们,在...
晶方科技:公司封装业务规模呈现... 人民财讯5月22日电,5月22日,晶方科技(603005)高管在2024年度业绩暨现金分红说明会上介...
汪元程在沙市区调研 转自:荆州发布汪元程在沙市区调研时强调加快提升城市能级 奋力冲刺千亿城区在打造全省支点建设先行区中勇...
沈阳机床:推进产品升级和结构调... 沈阳机床(000410)5月22日在上海接待江西大成资本、源益资本、国海创新资本、复星高科技集团、君...
关注丨这条高铁建设取得重大进展... 5月21日渝昆高铁长水机场站顺利完成明挖区间顶板浇筑以及特大桥上部结构施工为渝昆高铁后续架梁、铺轨工...
东田微3391.2万股限售股即... 本次解禁后,公司有限售条件股份将由3391.20万股减少至2137.30万股,无限售流通股则增加至5...
小米发布搭载3纳米自研芯片旗舰... 转自:北京日报客户端22日晚,小米自主研发设计的首款3纳米旗舰处理器“玄戒O1”在京发布,并搭载在小...
赴港赶考!潮宏基的黄金“野心”... 老铺黄金后,又有珠宝公司瞄准港股。近日,潮宏基(002345.SZ)对外透露,为进一步推进全球化战略...
新民·教育星球|志愿填报,梯度... 转自:上观新闻命运的轨迹始于抉择,前行的征程赖于耕耘,二者交织方见璀璨人生。学生、老师、家长三位一体...
推送算法破茧:愿你在手机上刷到... 文/张传文信息茧房、观点极化……如何解决“困在算法里”,做到“算法向善”?“清朗·网络平台算法典型问...
文旅融合展示万千气象 四川展馆... 川观新闻记者 吴梦琳 摄影 黄潇 发自深圳5月22日,第二十一届中国(深圳)国际文化产业博览交易会在...
小米 Watch S4 eSI... IT之家 5 月 22 日消息,在今晚的小米 15周年战略新品发布会上,小米 Watch S4 eS...
西北四省(区)暨甘肃省文物行业... 中国甘肃网5月22日讯(西北角·中国甘肃网记者 孙珩力)5月22日,以“守护丝路遗产·锻造大国工匠”...
中国法学会基层服务站点和法学专... 法学会基层服务站点是践行习近平法治思想、服务更高水平的社会主义法治国家建设的重要载体,是坚持和发展新...
西安雁塔公安践行“主动”理念,... 在守护城市平安、服务群众的征程中,西安雁塔公安始终牢记“人民公安为人民”的初心使命,聚焦公安主责主业...
新疆木垒通用机场获批建设 中新网乌鲁木齐5月22日电 (陶拴科)22日,记者从新疆木垒哈萨克自治县(以下简称木垒县)人民政府获...
“411票赞成、100票反对”... 【环球网报道】据法新社报道,对于欧洲议会22日批准对从俄罗斯进口的化肥征收关税一事,俄罗斯总统新闻秘...
政策举措密集出台,资本市场“科... 转自:经济日报修订《上市公司重大资产重组管理办法》和相关监管指引、大力发展科技创新债券……近一段时间...
王艺迪晋级世乒赛女单八强 来源:央视体育2025多哈世乒赛女单1/8决赛,王艺迪4-0完胜帕瓦德,晋级八强。 四局比分为:11...