阿里巴巴通义实验室推出三款AI语音模型，普通话识别错误率仅4.97%_知识

阿里巴巴通义实验室推出三款AI语音模型，普通话识别错误率仅4.97%

创始人

2026-02-23 16:49:56

一个模型搞定52种语言，还认得了22种中国方言

要理解Qwen3-ASR究竟做了什么，先把它想象成一位超级速记员。这位速记员不只会普通话和英语，还会广东话、阿拉伯语、德语、法语、西班牙语、葡萄牙语、印尼语、意大利语、韩语、俄语、泰语、越南语、日语、土耳其语、印地语、马来语、荷兰语、瑞典语、丹麦语、芬兰语、波兰语、捷克语、菲律宾语、波斯语、希腊语、匈牙利语、马其顿语和罗马尼亚语，总计30种语言。

光这30种语言还不够。在中文方言方面，这位速记员还专门学过安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话，加上香港口音粤语、广东口音粤语、吴语和闽南语，合计22种方言。两者相加，这套系统共支持52种语言和方言。

四个阶段的"养成之路"：从海量数据到强化学习

Qwen3-ASR的训练过程，像极了培养一位顶级翻译员的路径，总共经历了四个阶段。

第一阶段是打地基。AuT编码器需要先独立学习如何"听"，用的是大约4000万小时的语音数据，主要是中文和英语。这个阶段产出的编码器，能够在不同长度的音频片段下都稳定工作，因为它采用了动态注意力窗口机制，窗口大小可以在1秒到8秒之间灵活调整。

第二阶段是"见世面"。整个Qwen3-Omni多模态基础模型，用3万亿个词元（token，可以理解为文字或语音的最小处理单位）的音频、视觉和文字混合数据进行预训练，让模型具备对多种信息形式的综合理解能力。0.6B和1.7B两个版本都经历了这一阶段。

第四阶段是"磨砺"。研究团队使用了一种叫做GSPO（群体序列策略优化）的强化学习方法，用约5万条语音数据对模型进行最后的打磨。这5万条数据里，中英文占35%，多语言数据占35%，各类功能性测试数据占30%。强化学习的效果出乎意料地显著——它对模型在嘈杂环境下的稳定性、转录一致性以及处理难点案例的能力，都有明显提升。

三跑得有多快？0.6B版本每秒能处理2000秒音频

以"首字等待时间"（TTFT，即用户说完话到模型开始输出第一个字的延迟）为衡量标准：在单用户使用的情况下，平均等待时间低至92毫秒，95%的请求在105毫秒内就能看到第一个字。换个直观的说法，从你说完话到模型开始输出，大约只需要一眨眼的十分之一。

当同时有128个用户并发请求时，实时因子（RTF，即处理1秒音频需要多少秒）为0.064，吞吐量达到每秒处理2000秒音频。也就是说，每过1秒钟，模型就能处理完相当于2000秒的语音内容。对于需要大规模部署的工业场景，这个数字意味着可以用很低的成本支撑大量用户同时使用。

1.7B的大版本稍慢一些，单用户情况下TTFT平均102毫秒，128并发时吞吐量约为每秒1220秒音频。两个版本均支持离线批量处理和在线异步推理两种模式，均基于vLLM v0.14.0框架运行。

在实际测试中，流式模式相比离线模式确实会带来一定的准确率损失，但损失幅度在可接受范围内。以Qwen3-ASR-1.7B为例，在LibriSpeech标准测试集上，离线模式的词错误率是1.63%（clean）和3.38%（other），流式模式则是1.95%和4.51%。在Fleurs英语测试集上，离线3.35%，流式4.02%；中文测试集上，离线2.41%，流式2.84%。总体来看，流式模式引入的额外误差约在0.3到1.1个百分点之间。

为了全面评估模型性能，研究团队不仅测试了公开基准数据集，还专门构建了一套内部测试集，覆盖了许多公开测试集里较少出现的真实场景。

在公开英语基准测试中，Qwen3-ASR-1.7B在GigaSpeech（众包网络语音）上达到8.45%词错误率，在Common Voice英语集上达到7.39%，在VoxPopuli上达到9.15%，综合表现优于GPT-4o-Transcribe、Gemini-2.5-Pro等商业API，并全面超越Whisper-large-v3等开源模型。在LibriSpeech朗读语音测试集上，1.7B版本的clean集词错误率为1.63%，接近最优水平。

普通话方面，Qwen3-ASR的优势更加明显。在包含多种声学环境和会议录音的WenetSpeech测试集上，1.7B版本的CER（字符错误率）为4.97%（网络语音）和5.88%（会议录音），大幅优于GPT-4o-Transcribe的15.30%和32.27%，以及Gemini-2.5-Pro的14.43%和13.47%。Doubao-ASR在这个测试集上甚至无法给出合理结果（标注为N/A）。

内部压力测试的结果更能说明问题。在包含16种口音英语的测试集上，Qwen3-ASR-1.7B达到16.07%词错误率，优于所有对比系统。在老人儿童普通话测试中，1.7B版本达到3.81%字符错误率，而Gemini-2.5-Pro在同场景下高达36.93%。极端噪音环境下，1.7B版本达到16.17%，Whisper-large-v3则高达63.17%。覆盖22种方言的混合方言测试集上，Qwen3-ASR-1.7B达到15.94%，优于Doubao-ASR的19.85%和Whisper-large-v3的44.55%。

现有的错误主要集中在马来语（ms）和印度尼西亚语（id）之间的混淆，因为这两种语言在发音和词汇上都非常接近，即便是人类有时也难以区分。

专门为字幕生成而生的"时间戳神器"：Qwen3-ForcedAligner

假设你有一段15秒的录音，里面说了"你好，我是通义千问"，ForcedAligner能告诉你："你"出现在0.5秒到0.66秒，"好"在0.66秒到0.89秒，"我"在0.89秒到1.10秒……以此类推。这个功能在字幕生成、语音数据标注、口语评测等场景里非常实用。

Qwen3-ForcedAligner的设计思路完全不同。它把时间戳预测重新定义为一个"填空"任务：给定一段音频和对应文字，在每个词或字的前后插入特殊的时间槽标记[time]，然后让模型直接预测每个槽对应的时间索引。时间索引以80毫秒为一个单位，最多支持3750个单位，对应最长300秒的音频。

训练数据方面，由于人工标注时间戳极为昂贵，研究团队用MFA生成的伪标注数据作为训练素材，但并非简单复制MFA的输出——模型经过"提炼和平滑"处理，最终预测结果比MFA本身更稳定、偏移更小。

时间戳准确度测试：比竞争对手精确67%到77%

衡量时间戳准确度的指标叫做AAS（累积平均偏移），数值越小说明预测时间戳和真实时间戳之间的差距越小。

在MFA标注的短句测试集上，Qwen3-ForcedAligner-0.6B的平均AAS为42.9毫秒，而NFA为129.8毫秒，WhisperX为133.2毫秒，相对减少了约67%到68%。中文单独测试中，Qwen3-ForcedAligner的AAS为33.1毫秒，而Monotonic-Aligner高达161.1毫秒。

长音频场景下，差距更加悬殊。在长度拼接至300秒的测试集上，Qwen3-ForcedAligner的平均AAS为52.9毫秒，NFA为246.7毫秒，WhisperX更是高达2708.4毫秒（近3秒的偏移）。传统工具在处理长音频时准确率急剧下降，而Qwen3-ForcedAligner的性能基本不受音频长度影响。

在人工标注的测试集上（这是更接近真实情况的"黄金标准"），Qwen3-ForcedAligner的各项AAS均在24.8到42.5毫秒之间，而NFA在86.7到140毫秒之间，表现出相对减少约53%到77%的偏移量。

至顶AI实验室洞见

论文地址：

https://arxiv.org/pdf/2601.21337

END

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1：Qwen3-ASR支持哪些语言和方言？

A：Qwen3-ASR-1.7B和Qwen3-ASR-0.6B共支持52种语言和方言，包括30种语言（中文、英语、日语、韩语、法语、德语、西班牙语等）和22种中国方言（四川话、粤语、闽南语、吴语、东北话等）。Qwen3-ForcedAligner-0.6B则支持其中11种主要语言的时间戳对齐。

Q3：Qwen3-ForcedAligner和MFA等传统时间戳工具相比有什么优势？

A：Qwen3-ForcedAligner-0.6B用一个统一模型支持11种语言，无需针对每种语言单独配置，还支持跨语言混用场景。在时间戳精度上，累积平均偏移比NFA和WhisperX减少约67%到77%，且在长音频下性能不降级，而传统工具在长音频场景下准确率会急剧下滑。

上一篇：今年春节AI订旅行火了！年轻人热衷“跟着AI过大年”

下一篇：全球双破亿AI原生支付产品：支付宝“AI 付”春节用户数突破1亿

阿里巴巴通义实验室推出三款AI语音模型，普通话识别错误率仅4.97%

相关内容

热门资讯