在互联网和移动互联网时代,以PC和智能手机为载体的图形视觉交互是最主要的人机交互方式,占据了绝大部分用户流量入口。在更多智能设备的物联网时代,除了触屏之外,语音交互被普遍视为最有可能成为下一代信息、内容以及服务的核心入口之一。目前,语音交互赛道已汇集了互联网巨头、知名硬件企业、电商平台、传统家电厂商以及各类人工智能初创公司,特别是近几年以智能音箱为代表的语音交互产品在国内外的火爆,极大地激发了语音交互技术的应用和发展。深度学习的突破极大地促进了语音识别技术的发展。目前语音识别系统在近场环境下已取得相当好的性能,甚至超过人类水平。然而在真实环境中,语音信号不可避免地受到噪声和混响的干扰,特别在远场条件下,由于声波在传播过程中其能量随传播距离呈指数衰减,语音信号受到噪声和混响的干扰更加严重,极大地影响了语音识别等语音交互应用的性能。
为了提高语音识别系统的噪声鲁棒性,最直接的手段就是收集大量真实环境的语音数据进行带噪训练。这种方法虽然简单,但真实环境复杂多变,数据收集和训练的代价比较大,很难覆盖所有应用场景,性能提升比较有限。另外一种重要的方法是采用语音增强作为语音识别系统的前端处理模块。一方面会带来处理流程和计算消耗的增加,甚至可能增加硬件成本(基于麦克风阵列的多通道语音增强),另一方面语音增强算法一般会基于自身的优化准则,并没有直接优化语音识别目标,消除噪声的同时可能会带来语音畸变。语音识别模型的噪声鲁棒性问题主要来源于纯净训练数据和带噪测试数据的分布差异。
生成式对抗网络(GAN, Generative Adversarial Networks)是最近极为流行的无监督生成模型。通过对抗训练的方式,它能够连续逼近指定的数据分布。GAN通常由生成器和判别器组成,生成器用来生成样本,判别器用来判断样本是否来自真实训练集。二者进行对抗训练,使得生成器生成的样本尽可能逼近真实训练数据。GAN不仅在图像领域取得了巨大的成功,在语音领域也有许多应用,例如语音转换、合成、增强等。
针对语音识别系统在噪声环境下识别性能下降的问题,自动化所智能交互团队提出了深度对抗和声学模型联合训练的框架。该框架由生成器(G)、判别器(D)以及分类器(C)组成。生成器用来把带噪语音数据分布变成纯净语音;判别器用来判定语音信号是否来自真实纯净训练集;声学模型作为分类器,指导生成器提取区分性特征。生成器、判别器和声学模型进行联合对抗训练,三者相互配合相互促进。
深度对抗训练框架
通过深度对抗的联合训练策略,有效减小了噪声环境语音数据和真实训练数据的分布差异,提升了声学模型的鲁棒性。相对于语音增强方法,该框架没有增加计算的流程和复杂度,而且不需要一一对应的带噪数据和纯净数据,可作为通用训练框架提升已有声学模型的噪声鲁棒性。我们将提出的方法在Chime-4数据集上进行实验,评价标准为词错误率。结果显示:测试集上超过了基线系统(29.29 vs 33.11),效果良好,验证了该方法的有效性。该研究组在基于深度对抗训练的领域自适应问题上进行了系列深入研究,目前已在OCR、鲁棒性语音识别和语音增强等领域取得多项优秀成果。
本文相关成果发布在ICASSP2018上,并获得最佳学生论文奖。