摘要:语音分离是从带背景干扰的语音中抽取目标语音的任务。传统的,语音分离是信号处理问题的研究课题。最近的一些方法将语音分离当做有监督学习研究课题,基于训练数据获得语音、说话人和背景噪声的区分性模式。在过去十年里提出了许多有监督分离算法。特别地,近期的基于深度学习的有监督语音分离显著提升了语音分离效果。本文综述性描述最近几年基于深度学习的有监督语音分离的进展。首先,介绍语音分离的背景以及有监督分离的表达式。如何,讨论有监督分离的三个重要组成部分:学习机器、训练目标和声学特征。综述中大部分文章是基于单麦克方案,包含语音增强(语音和非语音的分类)、说话人分离(多个说话人的分类)、语音去混响,多麦克方案也是这些。本文讨论了有监督学习特有的泛化问题。本文从历史的视角探讨进展是如何产生的。另外,我们讨论了一些概念问题,包括目标源的组成是什么。
介绍:语音分离的目标是从背景干扰中分离出目标语音。语音分离是信号处理的基础任务,具有广泛的应用,包括听觉恢复术、手机通讯以及鲁棒自动语音和说话人识别。人类听觉系统具备从多混合源中提取单一声音源的非凡能力。在鸡尾酒宴会的声学环境中,一个人可以追踪固定目标人的声音,虽然周围有很多人声干扰和噪声干扰。语音分离任务也称之为“鸡尾酒宴会问题”,Cherry于1953年提出。
语音分离是声源分离的特例。感觉上,源分离对应听觉流分离,听觉感知领域的扩展研究主题。最早针对流分离的系统性研究是Miller和Heise,他们提出xx。
我们人类处理语音分离的能力如何?噪声环境下度量人类语音感知能力的一种方式是测量言语感受阈(speech reception threshold, SRT),即对于50%可懂值所需要的信噪比。
Miller通过加入各种tone、宽带噪声、其它人声干扰来度量对可懂值的影响。通过测试听众的字可懂值,结果如上图显示,对可懂值影响最大的是宽带噪声,其次是多个人声干扰。
语音分离分为单麦和多麦克阵列方案。单麦克的两个传统方案是语音增强(speech enhancement)和计算听觉场景分析(CASA)。语音增强分析语音和噪声的统计量,从带噪语音中估计出噪声,从而获得干净语音的估计。最简单也是使用最广的的语音增强方法是谱减法,从带噪语音的功率谱中减去噪声的功率谱。为了估计背景噪声,语音增强假设背景噪声是平稳信号,即谱属性不随着时间变化,或者相对语音而言是稳定的。CASA是基于听觉场景分析的感知原则,探索一些其它维度线索,如pitch和onset。
基于多麦克的阵列方案是另一种思路。波束形成或者说空间滤波,通过核实的阵列配置,来增强不同方向的信号,抑制其它方向的干扰。最简单的波束形成是delay-and-sum技术方案。主要是利用相位差来削弱其它方向信号。噪声衰减的数量依赖阵列的空间尺寸和配置,通常来说随着麦克风个数和阵列长度的增加衰减越快。显然,空间滤波不能解决目标源和干扰源同向的情况。而且,波束形成在混响环境下效果会下降,因为混响会污染声源的方向。
近年来一种新的语音分离方案被提出,即基于有监督学习方案。有监督语音分离的原始公式来源于CASA领域的时频掩码(TF masking)。作为分离的一种方案,时频掩码应用一个二维的mask作用于带噪语谱图,从而获得干净语谱图的目的。CASA的主要目标是理想而知掩码(IBM),用于表征目标信号在T-F单元上的权重。听觉研究表明,不论是对于正常听觉人群还是听觉受损人群,理想二值掩蔽可以显著提升噪声环境的语音可懂度。将IBM作为计算目标,语音分离成为一个二分类问题,IBM就成了预测目标,可以通过有监督方案进行学习。