英伟达开源高效ASR模型Parakeet
创始人
2025-05-07 16:47:03
0

2025-05-07 14:20:15 作者:狼叫兽

英伟达近日推出了一款先进的自动语音识别(ASR)模型 Parakeet TDT 0.6B,该模型已在 Hugging Face 平台全面开源。据相关技术报道,这款新模型在处理速度和转录质量方面表现出色。

Parakeet TDT 0.6B 最显著的特点是其极高的处理效率。该模型仅需 1 秒即可完成 60 分钟音频的处理,速度约为当前主流开源 ASR 模型的 50 倍。与此同时,在 Hugging Face 的 Open ASR Leaderboard 上,其字错率(WER)仅为 6.05%,在开源模型中名列前茅。这一性能表现使其非常适合用于实时语音转录、语音内容分析、呼叫中心智能化及音视频内容索引等企业级应用场景。

该模型采用 Transformer 架构,并通过高质量的转录数据进行微调,同时在英伟达硬件平台上进行了推理优化,以实现更高的运算效率。其主要技术特征包括:6 亿参数的编码-解码结构、支持量化与融合内核以提升计算效率、支持 TDT(Transducer Decoder Transformer)架构,以及具备精准的时间戳、数字格式化和标点恢复能力。

值得注意的是,该模型还首次实现了对歌曲内容的歌词转录功能,这一特点在同类模型中较为罕见,为音乐内容索引和媒体平台提供了新的应用可能。通过结合英伟达的 TensorRT 和 FP8 量化技术,其在实际运行中的实时率(Real Time Factor,RTF)达到 3386,显示出极强的实时处理能力。

除了处理速度快、识别准确之外,Parakeet TDT 0.6B 还集成了多项实用功能。例如,它能够将歌曲音频转化为歌词文本,适用于音乐和媒体行业的多种用途;支持数字与时间戳的格式化输出,提升了会议记录、法律文档和医疗报告等内容的可读性;而标点恢复功能则有助于提升后续自然语言处理(NLP)任务的效果。这些附加功能有效提高了语音转文字的整体质量,减少了后期编辑和人工干预的需求,尤其适合大规模的企业级部署。

相关内容

热门资讯

四上高原守护“健步梦” 本报记者 马晓艳 6月18日清晨,一辆载着青岛市市立医院“骨道匠心 筑梦健康”红十字志愿服务队员的车...
水上救援 “大练兵” 图为消防员开展翻船自救训练。本报记者 旦增嘎瓦 本报通讯员 洛桑顿珠 摄 为切实提升应对洪涝灾害的应...
冠军炉、优胜炉、创先炉名单,全... 冠军炉、优胜炉、创先炉名单,全国重点大型钢铁生产设备节能降耗对标竞赛评审结果通报 .app...
滥用AI频现负面效应 人与AI...   炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 封面新闻记者 吉星近...
又一家国产GPU厂商完成IPO... 据报道,国产GPU厂商沐曦股份已完成IPO辅导,公司此前估值已达到百亿元人民币。沐曦股份专注于GPU...