阿里巴巴通义实验室推出三款AI语音模型,普通话识别错误率仅4.97%
创始人
2026-02-23 16:49:56

一个模型搞定52种语言,还认得了22种中国方言

要理解Qwen3-ASR究竟做了什么,先把它想象成一位超级速记员。这位速记员不只会普通话和英语,还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语,总计30种语言。

光这30种语言还不够。在中文方言方面,这位速记员还专门学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话,加上香港口音粤语、广东口音粤语、吴语和闽南语,合计22种方言。两者相加,这套系统共支持52种语言和方言。

四个阶段的"养成之路":从海量数据到强化学习

Qwen3-ASR的训练过程,像极了培养一位顶级翻译员的路径,总共经历了四个阶段。

第一阶段是打地基。AuT编码器需要先独立学习如何"听",用的是大约4000万小时的语音数据,主要是中文和英语。这个阶段产出的编码器,能够在不同长度的音频片段下都稳定工作,因为它采用了动态注意力窗口机制,窗口大小可以在1秒到8秒之间灵活调整。

第二阶段是"见世面"。整个Qwen3-Omni多模态基础模型,用3万亿个词元(token,可以理解为文字或语音的最小处理单位)的音频、视觉和文字混合数据进行预训练,让模型具备对多种信息形式的综合理解能力。0.6B和1.7B两个版本都经历了这一阶段。

第四阶段是"磨砺"。研究团队使用了一种叫做GSPO(群体序列策略优化)的强化学习方法,用约5万条语音数据对模型进行最后的打磨。这5万条数据里,中英文占35%,多语言数据占35%,各类功能性测试数据占30%。强化学习的效果出乎意料地显著——它对模型在嘈杂环境下的稳定性、转录一致性以及处理难点案例的能力,都有明显提升。

三跑得有多快?0.6B版本每秒能处理2000秒音频

以"首字等待时间"(TTFT,即用户说完话到模型开始输出第一个字的延迟)为衡量标准:在单用户使用的情况下,平均等待时间低至92毫秒,95%的请求在105毫秒内就能看到第一个字。换个直观的说法,从你说完话到模型开始输出,大约只需要一眨眼的十分之一。

当同时有128个用户并发请求时,实时因子(RTF,即处理1秒音频需要多少秒)为0.064,吞吐量达到每秒处理2000秒音频。也就是说,每过1秒钟,模型就能处理完相当于2000秒的语音内容。对于需要大规模部署的工业场景,这个数字意味着可以用很低的成本支撑大量用户同时使用。

1.7B的大版本稍慢一些,单用户情况下TTFT平均102毫秒,128并发时吞吐量约为每秒1220秒音频。两个版本均支持离线批量处理和在线异步推理两种模式,均基于vLLM v0.14.0框架运行。

在实际测试中,流式模式相比离线模式确实会带来一定的准确率损失,但损失幅度在可接受范围内。以Qwen3-ASR-1.7B为例,在LibriSpeech标准测试集上,离线模式的词错误率是1.63%(clean)和3.38%(other),流式模式则是1.95%和4.51%。在Fleurs英语测试集上,离线3.35%,流式4.02%;中文测试集上,离线2.41%,流式2.84%。总体来看,流式模式引入的额外误差约在0.3到1.1个百分点之间。

为了全面评估模型性能,研究团队不仅测试了公开基准数据集,还专门构建了一套内部测试集,覆盖了许多公开测试集里较少出现的真实场景。

在公开英语基准测试中,Qwen3-ASR-1.7B在GigaSpeech(众包网络语音)上达到8.45%词错误率,在Common Voice英语集上达到7.39%,在VoxPopuli上达到9.15%,综合表现优于GPT-4o-Transcribe、Gemini-2.5-Pro等商业API,并全面超越Whisper-large-v3等开源模型。在LibriSpeech朗读语音测试集上,1.7B版本的clean集词错误率为1.63%,接近最优水平。

普通话方面,Qwen3-ASR的优势更加明显。在包含多种声学环境和会议录音的WenetSpeech测试集上,1.7B版本的CER(字符错误率)为4.97%(网络语音)和5.88%(会议录音),大幅优于GPT-4o-Transcribe的15.30%和32.27%,以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上甚至无法给出合理结果(标注为N/A)。

内部压力测试的结果更能说明问题。在包含16种口音英语的测试集上,Qwen3-ASR-1.7B达到16.07%词错误率,优于所有对比系统。在老人儿童普通话测试中,1.7B版本达到3.81%字符错误率,而Gemini-2.5-Pro在同场景下高达36.93%。极端噪音环境下,1.7B版本达到16.17%,Whisper-large-v3则高达63.17%。覆盖22种方言的混合方言测试集上,Qwen3-ASR-1.7B达到15.94%,优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

现有的错误主要集中在马来语(ms)和印度尼西亚语(id)之间的混淆,因为这两种语言在发音和词汇上都非常接近,即便是人类有时也难以区分。

专门为字幕生成而生的"时间戳神器":Qwen3-ForcedAligner

假设你有一段15秒的录音,里面说了"你好,我是通义千问",ForcedAligner能告诉你:"你"出现在0.5秒到0.66秒,"好"在0.66秒到0.89秒,"我"在0.89秒到1.10秒……以此类推。这个功能在字幕生成、语音数据标注、口语评测等场景里非常实用。

Qwen3-ForcedAligner的设计思路完全不同。它把时间戳预测重新定义为一个"填空"任务:给定一段音频和对应文字,在每个词或字的前后插入特殊的时间槽标记[time],然后让模型直接预测每个槽对应的时间索引。时间索引以80毫秒为一个单位,最多支持3750个单位,对应最长300秒的音频。

训练数据方面,由于人工标注时间戳极为昂贵,研究团队用MFA生成的伪标注数据作为训练素材,但并非简单复制MFA的输出——模型经过"提炼和平滑"处理,最终预测结果比MFA本身更稳定、偏移更小。

时间戳准确度测试:比竞争对手精确67%到77%

衡量时间戳准确度的指标叫做AAS(累积平均偏移),数值越小说明预测时间戳和真实时间戳之间的差距越小。

在MFA标注的短句测试集上,Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒,而NFA为129.8毫秒,WhisperX为133.2毫秒,相对减少了约67%到68%。中文单独测试中,Qwen3-ForcedAligner的AAS为33.1毫秒,而Monotonic-Aligner高达161.1毫秒。

长音频场景下,差距更加悬殊。在长度拼接至300秒的测试集上,Qwen3-ForcedAligner的平均AAS为52.9毫秒,NFA为246.7毫秒,WhisperX更是高达2708.4毫秒(近3秒的偏移)。传统工具在处理长音频时准确率急剧下降,而Qwen3-ForcedAligner的性能基本不受音频长度影响。

在人工标注的测试集上(这是更接近真实情况的"黄金标准"),Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间,而NFA在86.7到140毫秒之间,表现出相对减少约53%到77%的偏移量。

至顶AI实验室洞见

论文地址:

https://arxiv.org/pdf/2601.21337

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:Qwen3-ASR支持哪些语言和方言?

A:Qwen3-ASR-1.7B和Qwen3-ASR-0.6B共支持52种语言和方言,包括30种语言(中文、英语、日语、韩语、法语、德语、西班牙语等)和22种中国方言(四川话、粤语、闽南语、吴语、东北话等)。Qwen3-ForcedAligner-0.6B则支持其中11种主要语言的时间戳对齐。

Q3:Qwen3-ForcedAligner和MFA等传统时间戳工具相比有什么优势?

A:Qwen3-ForcedAligner-0.6B用一个统一模型支持11种语言,无需针对每种语言单独配置,还支持跨语言混用场景。在时间戳精度上,累积平均偏移比NFA和WhisperX减少约67%到77%,且在长音频下性能不降级,而传统工具在长音频场景下准确率会急剧下滑。

相关内容

热门资讯

广州珠江职业技术学院最新或20...   第一章 总则   第一条 为了保证学院招生工作顺利进行,切实维护学院和考生的合法权益,根据《中华...
最新或2023(历届)徐州医学...   学校代码:10313   学校全称:徐州医学院   学校性质:省属普通高校   办学性质:公办 ...
广州科技贸易职业学院 最新或2...   第一章 总 则   第一条 为了保证普通高等学校招生工作顺利进行,切实维护学院和考生的合...
中国药科大学普通本专科招生简章...   第一章 总则   第一条 根据《中华人民共和国教育法》、《中华人民共和国高等教育法》等相关法律和...
东晋四大家族之首的是谁?&ld... “旧时王谢堂前燕,飞入寻常百姓家。”刘禹锡的千古名句,在一定程度上反映了人们对于名门望族的仰慕。这里...