5 月29日,腾讯 AI Lab 副主任、西雅图人工智能研究室负责人俞栋受邀到访自动化所,并做《语音识别领域的前沿研究》主题报告,探讨分享了语音识别领域的 4 个前沿问题。报告会由徐波所长主持。
俞栋在报告中介绍了在语音识别当中的一些前沿的研究方向,主要包括以下四个:
一是更有效的序列到序列直接转换模型。报告介绍了序列到序列直接转换的研究目前的两个方向:CTC模型和带有注意力机制的序列到序列的模型。CTC模型要求输出序列的长度比输入序列短,这是非常适合语音识别问题的。而且CTC模型的优势是,可以相对自由的选择建模单元,而且在某些场景下是建模单元越大,识别效果越好。但是CTC的缺点是训练不稳定。带有注意力机制的模型目前在语音识别里还不是很成熟。它的主要问题是训练过程和识别过程不匹配;其次是带有注意力机制的模型和语音识别问题本身不匹配,该模型最早是在翻译问题中提出,注意力机制也主要是调序用的,但是语音识别不需要调序。报告称目前的解决方法是attention模型与CTC模型联合使用。
二是鸡尾酒会问题,即在非常嘈杂或者多人同时说话的环境中,人有一个非常好的特点,即能够把注意力集中在某一个人的声音上,屏蔽掉周围的说话声或者噪音,非常好地听懂所需关注之人的说话声音,而现在语音识别系统还无法做到这点。在该方向中,报告主要介绍了其最新的工作Permutation Invariant Training。但是该工作还只是使用了单麦克风的信息,未来的研究可以是如何有效利用多麦克风增强判别能力;有没有比LSTM更适合做语音分离任务的模型;有没有办法利用其他信息作为约束。
三是持续预测与适应的模型。报告称该类模型的主要特性是能发现一些规律,并将其变成长远记忆;能把说话人等的信息存储在模型中,在新的说话人时,可以快速适应。
四是前端与后端联合优化。目前的远场识别,前端主要依赖信号处理技术,且有可能丢失信息,而丢失的信息在后端语音识别引擎中无法恢复。报告探讨了可能的融合方法,让前端的信号处理与后端的语音识别引擎联合优化。
俞栋是语音识别和深度学习领域的著名专家。他于 1998 年加入微软公司,此前任微软研究院首席研究员,兼任浙江大学兼职教授和中科大客座教授。迄今为止,他已经出版了两本专著,发表了 160 多篇论文,是 60 余项专利的发明人及深度学习开源软件 CNTK 的发起人和主要作者之一。俞栋曾获 2013 年 IEEE 信号处理协会最佳论文奖。现担任 IEEE 语音语言处理专业委员会委员,之前他也曾担任 IEEE/ACM 音频、语音及语言处理汇刊、IEEE 信号处理杂志等期刊的编委。