炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
智东西
编译 金碧辉
编辑 程茜
智东西6月17日消息,据谷歌官方博客消息,谷歌实验室6月13日推出音频概览(Audio Overviews)这一全新功能。这是谷歌首次在搜索结果中引入由AI生成的播客式音频摘要。此次更新后,该功能首次在谷歌搜索结果中面向用户开放(此前仅存在于NotebookLM)。
新升级的谷歌搜索版音频概览并非NotebookLM的直接移植,而是基于相同技术框架的独立功能扩展。
当用户在Chrome浏览器搜索“神经网路工作原理”等复杂议题时,或者如“氩元素有什么用途”时,音频概览便会激活。用户点击“生成音频概览”按钮,等待约40秒后,就能获得由两个AI“主持人”对话形式的语音总结。
该功能需满足三项条件:订阅Google AI Pro/AI Ultra套餐、加入实验室项目且用户要使用美国IP。
用户点击结果页的生成按钮后,双AI主播的对话式解读将在约40秒后播出,播放器提供暂停、倍速调节及原文跳转功能,适配驾驶、烹饪等无屏场景操作需求。
一、利用Gemin模型实时抓取网页内容,音频生成全程仅需40秒
该系统内容由Gemini模型驱动,系统首先会在前10秒迅速完成网页抓取操作,并对抓取到的内容进行精准的语义分析;在随后的25秒内,Gemini模型基于分析结果构建出问答脚本,模拟出贴合问题逻辑的对话框架;Gemini模型5秒完成语音合成并输出。
不过,由于将响应速度设定为优先级,音频概览功能的交互能力有所降低,与NotebookLM能实时追问的功能相比,此版本仅能维持单向输出,用户无法在收听音频过程中即时提出新问题以获取进一步解答 。当前,音频概览功能仅面向美国用户提供英文服务,非英语的搜索内容也无法生成对应的音频摘要。
NotebookLM是谷歌推出的一款基于用户上传文档的个性化AI研究助手,限定了信息来源范围,却支持多达50多种格式,PDF、网页、视频等都涵盖其中。NotebookLM为用户提供了精准摘要,能快速提炼文档核心要点,以对话形式生动呈现文档关键内容等。
▲谷歌的音频概览功能摘要入口(图源:谷歌)而此次推出的音频概览功能,则延续了NotebookLM的对话式音频技术逻辑,其生成的语音总结能提取自搜索结果首页内容,还能帮助用户更便捷地理解信息。同时,用户可调整播放速度0.75-1.5倍速,实现“边听边看”的沉浸体验。
二、谷歌音频概览“首登搜索”,NotebookLM完整版缩水为轻量播客
谷歌音频概览功能早在2024年9月便已在NotebookLM中亮相,并呈现出完整形态,支持用户实时追问,助力深度探索信息。
今年5月,据外媒The Verge报道,音频概览功能沿用了谷歌I/O大会发布的“重构信息流”技术架构,不过当时谷歌尚未公布语言扩展及区域推广的具体时间表。
同月14日,谷歌技术团队在The Verge的独家专访中透露,为优化用户体验,音频概览功能采用了响应速度优化方案,将音频生成时长固定在40秒左右。
当前此举主要是为了验证用户对这一基础功能的接受程度。如今,谷歌实验室于6月13日再次对音频概览功能进行升级更新。新升级的谷歌搜索版音频概览是基于NotebookLM相同技术框架的独立功能扩展。
当用户使用Chrome浏览器搜索特定复杂议题时,满足条件就可能触发音频概览功能,播放器还贴心配备了暂停、倍速调节及原文跳转功能,适配驾驶、烹饪等无屏场景下的操作需求。
结语:AI“主持人”信息取舍存伦理争议
当用户从“阅读文字”转向“收听对话”,AI“主持人”已不仅是信息的转述者,更成为内容的“叙事架构师”。在教育场景中,学生搜索“量子物理” 时,双AI主播用生活化比喻拆解复杂概念的40秒音频,可能比长篇文献更高效吸收;科研人员检索跨语言文献时,语音摘要能突破文字壁垒,将文献核心观点转化为可听化对话,加速跨学科知识整合。这种“听觉化”的信息处理方式,使知识传递从“主动阅读”转向“被动聆听”的模式。
技术伦理问题随之浮现。AI“主持人”对信息的取舍逻辑尚未透明,双人对话形式可能存在诱导性解读风险。据MIT(麻省理工科技评论)2025年3月预警,当算法掌握声音表达权时,需建立更严格的信息溯源机制。
来源:谷歌、Mashable、The Verge