炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
6月26日,科大讯飞宣布其语音合成技术实现关键升级,“一句话声音复刻”与“超拟人语音合成”两项能力取得突破。
据介绍,讯飞星火APP自2024年4月上线“一句话声音复刻”功能以来,已在用户与行业中获得广泛认可。此次升级后,AI可在仅一句录音基础上,复刻用户完整音色、语气与情绪起伏,效果接近真人。
据悉,此次讯飞技术突破的关键,除了星火语音大模型底座的基础和持续迭代,还构建了一套三阶段层次化语音建模框架。
在音色恢复方面,讯飞通过融合帧级音色编码与声纹语义一致性损失函数,进一步提升合成音频的相似度与自然度。结合DPO强化学习策略,显著增强语音的稳定性与流畅性。
语音合成从早年需录制数十小时素材,到如今一句话即可复刻,使用门槛持续下降。科大讯飞表示,这一技术已广泛应用于教育、医疗、车载、金融等场景,释放更多定制化、情感化需求。
在多轮对话场景中,讯飞构建的上下文感知语音生成系统,融合历史文本与语音特征,令AI声音具备“情商”,能根据话题与情绪变化自动调整语调,实现更自然的人机交互。
据介绍,蔚来汽车已率先在新车型中搭载讯飞超拟人情感语音系统,成为首个在车内引入生成式语音合成框架的车企。奇瑞、广汽、长城、本田等车厂也采用该技术提升车载助手体验。
除智能座舱外,该技术还应用于教育产品,如AI学习机的“互动式问诊规划”功能,可根据学生表现生成个性化学习方案;在医疗场景中,情感语音导诊机器人有效提升老年用户的交流舒适度。
在数字内容创作方面,讯飞智作平台实现“一张照片+一句录音”定制虚拟数字人,唇形同步率达98%,已应用于高校教师视频教学和个人IP打造。
科大讯飞研究院院长刘聪表示:“我们希望声音不止于工具,更成为承载情感与个性的新维度,赋能更多场景行业、催生更多可能”。(袁宁)
本文来自网易科技报道,更多资讯和深度内容,关注我们。