智能交互终于步入真·人机交互时代了,这很讯飞
创始人
2025-06-13 14:02:08
0

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

苹果放鸽子的更新,国产AI率先实现了。

背上一个看起来平平无奇、体积也没什么存在感的包,宇树机器人就声情并茂地开口说话。

社交i人戴上AI眼镜,就可以轻松跟外国人social,看似不经意就加上微信好友;戴着它看展的话,看到不懂的展品还可以不懂装懂一下(bushi。

你对智能硬件的想象,是不是还停留在“能听懂你说话”的阶段?这种“你说一句、它答一句”的交互,本质上还是命令式的、静态的。场景一变化,语气一模糊,体验就崩了。

但现在,这些都开始变了。万物皆可交互,万物皆可互联开始具象化。

你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。

手里的一支签字笔、一块贴牌,也可以化身会议神器。

在科大讯飞最新发布会上,我看到了智能硬件的新范式:

设备不再是限制,产品与服务正在被AI革新,交互重构整个硬件产业生态。

正如此次发布会所展现,一个最大的感知就是现在智能硬件从基础交互迈向深度智能协作,从而在应用场景里深度赋能。

从技术角度来说,人机交互正在变成一个复杂的系统性工程,而不再是语音识别、模型系统和语音合成的简单组合。

这背后源于AI普及之后用户越来越高的期待。讯飞这边给了几个发现:

传统交互可能局限在“你说一句、它答一句”的固定回答上面;但现在大模型升级,万物皆可成为载体,智能交互所承载起的需求远比以往复杂得多,也丰富得多。

可以说,它集成了工具属性、娱乐属性以及情感表达于一体,相当于它不仅有全知全能的智商,还有懂你知你的情商,这就有点像“我要你做什么,但你不能只做什么”。

当然,这就对技术侧提出了很高的挑战,包括但不限于自然多轮对话的理解处理、情绪识别与共鸣、长程记忆、快速响应等等。

那么深耕了十年的讯飞如何应对呢?语音,是他们解决的抓手,也是此次AIUI升级的重点。

AIUI——讯飞的人机交互平台,早在2015年就已经上线,目前已累计服务超10亿设备,在车载、AI硬件、机器人等领域都有落地。

此次升级,正如在会场上所看到的,每一台AI设备都能拟人自然对话,每个场景都能智能响应——

背后是技术突破、场景深耕到生态开放都全面Level-Up。

技术突破方面,讯飞认为,全双工交互模式及情绪的感知和表达是拟人交互的基础要求。

全双工模式下“有所闻,有所不闻”。AIUI不仅能够有效识别噪声和无关人声,更重要的是,它能够在用户有迟疑、等待、附和时主动延长拾音。

以前语音助手可能你还没说完它就抢答,或者你说完它反应慢半拍。现在它能更聪明地判断你是在思考停顿、在附和、还是在犹豫,不会乱打断你,也不会让你干等着,对话节奏更舒服了。

而且它不光听懂你说什么词,还能从你说话的语调、声音里感觉出你是高兴、沮丧还是烦躁。

基于千万高质量高情商对话数据训练,背后模型——星火交互大模型“共情能力”升级,成为能回应你喜怒哀乐的智能伙伴。

基础要求满足之后,但不懂你怎么行?!此次发布另一个值得说道的就是类人记忆系统。

基于长短时记忆融合架构,模拟人脑记忆方式,对对话记录进行多层精准提取(上下文对话、用户画像、生活事件),慢慢形成专属的聊天方式和知识库,像是在陪伴你共同成长。

此外在交互响应上面也卷了一下,音频端到端响应时间做到了1.6s,在业内量产语音交互系统中处于领先水平。

特别针对需求旺盛的儿童场景,讯飞首发儿童专属交互方案。前面提到,大模型加持儿童场景的交互频次飙升,733%的那种。

小孩说话常常天马行空、表达不清,比如“我要那个会亮的星星”。科大讯飞专门训练了童言识别模型和童语理解模型,提升对话场景下的识别率和正确理解率。

在内容生态、交互模式、心智健康等方面,讯飞都做了相应的优化。

例如,孩子说 “我想看恐龙”,设备不仅播放科普视频,还会引导孩子用英语描述恐龙特征。这就是结合AI早教场景化学习提供趣味互动 。

除此之外,其他硬件场景下,在AIUI加持下也正在实现从功能实现到体验重构。

比如智能眼镜。即便是在发布会这样的嘈杂环境中,基于三麦阵列降噪技术,设备能精准区分佩戴者与他人声音,实现“一对一私密对话”。

当然这些场景的赋能还只是开始,要实现产业的赋能还得需要生态。

对于从来不缺开发者生态的讯飞来说,自然同样要发挥好原有的优势。AIUI将联合30万+开发者共建AI硬件解决方案,深度打磨软硬结合的交互效果。

董事长刘庆峰曾说过,语音将成为万物互联时代的主要交互方式

如果说AIUI给硬件提供了丰富的感知和表达能力,那么还需要“大脑”赋予它思考的能力,从而实现从感知-理解到行动的闭环。

科大讯飞给出的答案是机器人超脑平台。

其实早在2022年,科大讯飞就发布了讯飞机器人超脑平台;随着大模型技术爆发,讯飞迅速将星火大模型与超脑平台深度融合。

现在的机器人超脑平台以科大讯飞超脑2030技术底座,基于讯飞星火独有的两层1+N认知大模型体系构建交互大脑,大幅提升多轮对话、语义理解、知识应用、共情闲聊和行业知识构建效果。

超脑平台要求机器人能听会说、能理解会行动,而多模态交互正是实现“能听会说”的核心技术模块

一方面,平台在端侧提供了视听融合的感知交互解决方案

通过整合视听融合感知(语音+唇形+人脸追踪)、多模态降噪、多人语音分离等技术,来构建机器人的感官系统。

如多模态降噪方面,讯飞机器人超脑平台采用麦克风阵列窄波束算法,将限定拾音角度从传统算法的60°降低到30°,明显提升机器人设备麦克风阵列两侧噪声抑制的效果。

即便在嘈杂环境下,机器人的语音识别率也从83%提升至96%。

另一方面,平台在云端构建以大模型为核心的机器人大脑,同时还在工程化上做了诸多优化

云端大模型简化输出内容,避免传统机器人应答冗长问题,音频端到端响应时间1.6s。实现超拟人TTS合成,还把TTS的首响时间控制在200毫秒以内。

目前,讯飞机器人超脑平台的产品已经在多款机器人产品上集成和应用

比如在永达4S店迎宾的智元远征A2人形机器人,就集成了平台的多模态交互,不仅实现对顾客的主动感知、主动迎宾,还会结合专业汽车知识库提供车型参数问询、促销活动讲解。

此外,这样强大的多模态语音交互,还被北京“天工”、上海“朱雀”、浙江“领航者2号”等多款人形机器人广泛使用。

值得一提的是,为了解决机器人行业面临的 “碎片化需求”与“规模化落地”之间的矛盾,讯飞机器人超脑平台采用模块化设计。

具体而言,平台打造了软硬件一体的套件方案,快速提升交付能力。

发布会上,讯飞机器人超脑平台还带来了一个新产品:智能语音背包

它的存在是为了破解存量机器人缺乏语音交互能力的痛点。

所有机器人无需硬件重构,把智能语音背包在背上一背就能赋予机器人开口对话的能力,即插即用。

合作伙伴宇树G1背着它的“小背包”就上台了:

背上智能语音背包,G1秒变段子手

不仅在现场和科大讯飞产品经理幽默互动,还能为自己刚在深圳学的太极拳来一套程序员喜闻乐见的动作解释:

(猜猜下图这招叫啥?)

目前,就有超500家机器人客户选择了讯飞机器人超脑平台,种类包括人形机器人、四足机器人、轮式机器人等,推动机器人从实验室走向商场、医院、4S店等真实场景。

讯飞坚信,随着机器人服务现实世界的能力进化,在未来,遥控器、屏幕等人机交互的中间介质都会被逐步替代,人机直接互动才是服务过程中的刚需。

围绕智能交互这一点,发布会现场还揭晓了包含开发者生态、智能硬件(如AI眼镜)、数字人、大模型Agent在内的不少干货,不时引得观众掌声雷动。

数字人一直是科大讯飞的拿手好戏,此次发布会上依旧格外出彩。

会上提到,对比前一年,2024年全年科大讯飞的数字人制作量提升了16%,用户和数字人每天的交互次数增长了6.5倍。

据统计,AI虚拟人交互平台已成功构建超10万数字分身,广泛应用于媒体、教育、政企、文旅等场景,在金融、媒体、教育等领域市场占有率都达到了第一。

现场还展示了科大讯飞面向个人用户提供的轻量化定制方案——现在,一句话和一张照片就能快速构建一个人的数字人分身

新产品移动数字人小雨也在发布会现场亮相。

它搭载导航和路线规划功能,可在展厅、博物馆等场景自由移动,提供导览服务。

一个有意思的事情是,科大讯飞注意到在大模型时代来临前,人机交互最高频的使用场景是电视和车载;大模型时代来临后,儿童领域对话需求非常强烈,交互速度增长了7倍以上,成为交互最高频的场景

一个有意思的事情是,发布会场内,科大讯飞在儿童这一高频场景做了体验升维:

发布会现场外,5名父亲利用科大讯飞儿童专属的功耗玩具开发套件,在60分钟时间内,挑战开发板的“童芯大脑”。

“技术-场景-生态”闭环在这里交织,这其实也是科大讯飞一直以来践行的技术创新之道。

另外,这次挑战也是科大讯飞今年开发者大赛的一部分——发布会现场,讯飞iFYTEK AI开发者大赛同场起航

本届赛事覆36道应用赛与72道算法赛,特设智能座舱交互评测、多模态虚拟人对话等前沿赛道,以开放的生态与前沿的赛题,推动人工智能新生代的成长。

从2018年起,科大讯飞每年持续发起并举办开发者大赛,如今这项赛事已经成为一个全球性的人工智能竞赛平台,来自全球各地的人工智能产业的专业人才积极参与,共同推动人工智能前沿科学的研究和创新成果的实际转化。

15年前,科大讯飞发布行业首个语音云,至此拉开了语音交互的帷幕。

5年后的2015年,科大讯飞又发布了首个人机交互界面AIUI,让智能硬件进入了语音交互时代。

2021年有了虚拟数字人,2022年有了机器人超脑平台,2023年有了讯飞星火大模型……2010年至今,科大讯飞的交互技术不断突破。

而刚刚结束的这场发布会虽然是一场面向智能交互产品的发布会,但它讲述的故事,远不止功能更强和设备更聪明这么简单。

最直观的感受是它让外界更清晰地看到,在科大讯飞这里,智能交互正实现从单向指令到深度协同的转变:

它展示出的远非科大讯飞某一项功能/工具的单一产品升级,而是以AI交互为中枢、贯穿硬件研发到场景落地的全链技术方案

人机关系的重塑不再仅仅是“命令-执行”,而是逐步向共同完成目标过渡。交互体验提升不再是某个模块的升级,而是系统智能协作的开始。

你也可以理解为产品与服务在向更便捷、更高效、更智慧的方向演进。

这种变化不仅服务于讯飞自有产品,实现产品体验的跃升,更以平台方式赋能合作伙伴,直击广电、家庭、医疗、办公等诸多具体场景的核心痛点,让产业升级落到实处。

总之,让技术真正转化为解决问题的生产力

人机协作的下一站,不再只是“能沟通”,而是“能共事”,甚至“替你想”。

一个更聪明、更协作、更具生命力的智能世界,正从科大讯飞这场发布会开始,加速走进现实。

相关内容

热门资讯

千年佛像为何“滴血”?修复工作... 转自:上观新闻驼山石窟,是我国第三批全国重点文物保护单位。然而,石窟中69尊造像被红色油漆污染,留下...
现场直击2025上海中考开考 转自:上观新闻2025年上海中考今天(14日)鸣锣开考,首门考试科目为语文。在一声声“加油”“你一定...
光大保德信安泽债券A基金经理朱... 6月14日,光大保德信安泽债券A公告称,基金经理朱梦天不再管理光大保德信安泽债券A,离任原因:个人原...
52种小说|看眼下世界这样子,... (转自:小鸟与好奇心)故事一,大学老师,男性,在课堂上跟他的学生们讲当年如何为《美丽心灵》这部电影所...
南方致远混合A增聘刘益成为基金... 6月14日,南方致远混合A公告称,增聘刘益成为基金经理,与孙鲁闽共同管理该基金。变更日期为2025年...
涉买卖论文等 20多名高校人员... 新京报讯 据国家自然科学基金委员会消息,近期,经国家自然科学基金委员会监督委员会调查审议,由国家自然...
寻访沪上江南,上海发布“逛古镇... 2025年6月14日是“文化和自然遗产日”。6月13 日上午,上海2025年文化和自然遗产日主题活动...
广东海事局升级防台风应急响应至... 中新网广州6月14日电(郭军 黄鸣鹤)据广东海事局最新通报,“蝴蝶”已于13日20时加强为台风级,2...
以军称袭击了伊斯法罕附近核设施 近日,有消息称以军袭击了伊斯法罕附近的核设施。这一事件引发了全球的高度关注与担忧。伊斯法罕的核设施对...
王清土:助力国鳗“游”向世界 王清土,一位在鳗鱼产业中有着卓越贡献的人物。他凭借着坚定的信念和不懈的努力,积极投身于国鳗事业。从养...
国家文物局公布10家国家考古遗... 国家文物局关于公布10家国家考古遗址公园名单的通知各省、自治区、直辖市文物局(文化和旅游厅/局),新...
北京启动防洪排涝Ⅳ级应急响应 转自:央视网央视网消息:据北京市水务局官方微博“水润京华”消息,北京市水务局启动防洪排涝IV级应急响...
中国代表:中方谴责以色列侵犯伊... 当地时间13日,联合国安理会举行紧急公开会,聚焦以色列和伊朗冲突,中国等多国代表谴责以色列对伊朗发动...
凌晨,伊万离开中国 转自:扬子晚报6月14日凌晨,71岁的中国男足国家队主教练伊万科维奇离开中国。由于国足未能打进202...
哈梅内伊誓言报复以色列 格隆汇6月14日|据CCTV国际时讯,伊朗最高领袖哈梅内伊当地时间6月13日晚发表讲话称,伊朗对以色...
住房“以旧换新”怎么换?咨询电... 转自:山东发布2025年,山东省济南市、青岛市等发布住房领域消费的行动计划,明确住房“以旧换新”实施...
耶路撒冷和特拉维夫传出爆炸声 格隆汇6月14日|据CCTV国际时讯,新一轮伊朗导弹来袭后,耶路撒冷及以色列中部城市特拉维夫响起爆炸...
丹麦大叔跑长城22年还要跑到7... 【#丹麦大叔跑长城22年还要跑到70岁#】#长城上有全球最酷马拉松# “长城马拉松是世界上最酷的马拉...
贵州千年古树3年一开花花开变3... 转自:京报网_北京日报官方网站 【#贵州千年古树3年一开...
伊朗向以色列发射新一轮导弹 以... 据@CCTV国际时讯 消息,当地时间6月14日凌晨,据以色列军方称,伊朗向以色列发射新一轮导弹,以军...