【语音唤醒】TC-ResNet:移动设备上实时关键词检测的时间卷积算法
创始人
2025-05-30 05:21:13
0

在这里插入图片描述

  • Github开源仓库:https://github.com/hyperconnect/TC-ResNet
  • 论文下载链接:https://arxiv.org/abs/1904.03814

本文提出了一种适用于移动设备上实时语音唤醒的时间卷积。与大多数基于2D卷积的KWS方法不同,KWS方法需要深度架构来完全捕获低频域和高频域,本文使用紧凑的ResNet架构来利用时间卷积。在Google Speech Command数据集上,本文方法在Google Pixel 1上实现了超过385倍的加速比,并且与最先进的模型相比,准确率超过了最新的模型。此外,本文发布了所提出的模型和基线模型的实现,包括用于在移动设备上训练模型和评估它们的端到端管道。

关键词:语音唤醒、实时、卷积神经网络、时间卷积、移动设备


1、引言

本文提出了一种适用于移动设备上实时知识发现的时间卷积神经网络,称为TCResNet。我们采用时间卷积,即沿时间维度的一维卷积,并将MFCC作为输入通道。该模型利用时间卷积的优势,提高了KWS移动模型的精度,降低了移动模型的延迟。我们的贡献如下:

  • 我们提出了TC-ResNet,这是一种快速、准确的卷积神经网络,用于移动设备上的KWS。根据我们在Google Pixel 1上的实验,与最先进的基于CNN的KWS模型相比,该模型在Google语音命令数据集上的加速比为385倍,准确率提高了0.3%
  • 我们发布了我们的KWS模型1和基于CNN的最先进的KWS模型[6,7,8]的实现,以及在移动设备上评估模型的完整基准工具。
  • 我们的经验表明,与移动设备上的KWS中的2D卷积相比,时间卷积确实有助于减少计算并提高性能。

2、网络结构

2.1 KWS的时间卷积

为了实现实时KWS的快速而准确的模型,我们将输入从图1b中的X2d重塑为图1c中的X1d。我们的主要想法是将每帧MFCC视为时间序列数据,而不是强度或灰度图像,这是解释音频的更自然的方式。我们认为I是一维连续数据,其在每个时间帧的特征被表示为f。
在这里插入图片描述

2.2 TC-ResNet结构

我们采用了最广泛使用的CNN架构之一ResNet,但使用了m×1的内核(第一层m=3,其他层m=9),而不是3×3的内核(图2)。
卷积层和完全连接的层都没有偏置,并且每个批次归一化层具有用于缩放和移位的可训练参数。
在这里插入图片描述
我们选择TC-ResNet8(图2C)作为我们的基本模型,它具有三个剩余块和包括第一卷积层的每一层的{16,24,32,48}个通道。TC-ResNet14(图2d)通过合并比TC-ResNet8多一倍的剩余数据块来扩展网络。

我们引入宽度乘数(图2c和图2d中的k)来增加(或减少)每一层的信道数量,从而实现针对给定约束选择正确容量模型的灵活性。例如,在TCResNet8中,宽度乘数1.5将模型扩展为分别具有{24,36,48,72}个通道。我们通过附加乘数后缀来表示这样的模型,例如TCResNet8-1.5。TC-ResNet14-1.5的创建方式与此相同。

3、实验

3.1 数据集

我们使用Google语音命令数据集对提出的模型和基线进行了评估。数据集包含64,727个一秒长的发声文件,这些文件被记录并标记为30个目标类别中的一个。根据Google的实现,我们区分了12个类别:“是”、“否”、“上”、“下”、“左”、“右”、“开”、“关”、“停”、“行”、“沉默”和“未知”。使用SHA-1散列的音频文件名称,我们将数据集分为训练集、验证集和测试集,分别使用80%的训练集、10%的验证集和10%的测试集。

3.2 实验结果

表1显示了实验结果。利用时间卷积的优势,我们大大提高了在移动设备上测量的推理时间,同时获得了比基线KWS模型更好的精度。
在这里插入图片描述

如图3所示,假设错误检测到的关键字数量相同,与其他基线相比,TC-ResNet141.5不太可能错过目标关键字。较小的曲线下面积(AUC)意味着对于不同的误警率,模型平均漏掉的目标关键字更少。TC-ResNet14-1.5显示了最小的AUC,这对于KWS系统的良好用户体验至关重要。
在这里插入图片描述
我们设计了2D-ResNet8,其结构与TC-ResNet8相同,只是使用了3×3的2D卷积。2DResNet8(在表2中)显示了类似的精度,但比TC-ResNet8(在表1中)慢了9.2倍。TC-ResNet8-1.5能够在使用更少的计算资源的情况下超过2D-ResNet8。

在这里插入图片描述

4、结论

在这项研究中,我们的目标是在移动设备上实现快速而准确的实时知识获取模型。我们在移动设备Google Pixel 1上测量了推理速度,并对传统的基于卷积的KWS模型和我们的利用时间卷积的模型进行了定量分析。与最先进的模型相比,我们提出的模型获得了385倍的加速比,同时提高了0.3%的p精度。

通过消融研究,我们证明了时间卷积确实是显著加速的原因,同时提高了模型的精度。对于一组不同的网络体系结构,进一步分析时间卷积的有效性将是值得的。

相关内容

热门资讯

试题28 基础练习 回形取数 问题描述   回形取数就是沿矩阵的边取数,若当前方向上无数可取或已经取过,...
最新或2023(历届)北京昌平... 昌平区新增、改扩建中小学今年昌平区将新增、改扩建一批幼儿园、中小学,并增加幼儿园和小学入学学位,名校...
递归算法 - 分治算法 分治算法简介 分治算法(divide and conquer)是一种递归...
最新或2023(历届)北京丰台... 丰台区今年引进十余所优质校分校今年,丰台区将新增小学优质资源学位1100个,中学新增510个。记者从...
最新或2023(历届)北京通州... 通州区  3名校年内开建通州校区通州区三名小年内开间通州校区,它们分别为北京五中、景山学校、首师大附...
广州市教育局小升初民校必须面谈...  备受关注的最新或2023(历届)广州小升初新政细则至今不出台,民办学校“禁笔试改面谈”后如何面谈,...
SAP 发出商品业务配置 SAP发出商品业务配置,即: 出具销售发票时结转成本  一、业务背景&#...
最新或2023(历届)成都小升... 小升初政策 3月公布最新或2023(历届)小升初政策拟于3月公布,学生可通过就读小学、户籍所在地的区...
最新或2023(历届)广州小升... 最新或2023(历届)开始民校招生全面推行面谈关键词面谈 小学成绩 面谈名额相关政策:根据最新或20...
最新或2023(历届)成都小升... 最新或2023(历届)小升初政策拟于3月公布,学生可通过就读小学、户籍所在地的区(市)县教育行政部门...
最新或2023(历届)广州小升...  最新或2023(历届)广州小升初政策面临5大变革  最新或2023(历届),广州小升初的新政层出不...
最新或2023(历届)北京六城... 最新或2023(历届)北京六城区全部小升初学校生源质量排名表】:
【CNN】DenseNet——... DenseNet论文名称:Densely Connected Convolutiona...
AAAI顶会行人重识别算法源码... 数据及代码链接见文末 1.项目配置与数据集介绍 在这里我们使用的是清华大学的行人重识...
最新或2023(历届)昆明民办... 本报讯记者张丽亚报道昨日,昆明市教育局对外公布关于做好最新或2023(历届)民办初中招生工作的通知,...
最新或2023(历届)佛山小升... 佛山电台 佛山实验学校集团旗下4所学校,在全市率先公布明年“小升初”面谈方案。佛山实验学...
最新或2023(历届)广州小升... 小升初变革对学生提出了新要求。 (资料照片)第五届“华南金质教育品牌机构”评选结果揭晓 8家主流机构...
最新或2023(历届)昆明小升...   今年7月5日,小升初考试结束后,一名考生在演算题目。本报记者 刘筱庆 摄  明年昆明的小升初问题...
最新或2023(历届)佛山民办... 佛山实验学校集团旗下三学校发布的这份方案中把5%的“就近范围”定为“禅城区”引发市民质疑明年是佛山民...
烟气监测数据转IEC104规约... 1项目需求 项目背景:国能赤峰生物发电公司环保数据已经接入环保数采仪,通...