研读Speech separation is the task of separating target speech from background interference

摘要：语音分离是从带背景干扰的语音中抽取目标语音的任务。传统的，语音分离是信号处理问题的研究课题。最近的一些方法将语音分离当做有监督学习研究课题，基于训练数据获得语音、说话人和背景噪声的区分性模式。在过去十年里提出了许多有监督分离算法。特别地，近期的基于深度学习的有监督语音分离显著提升了语音分离效果。本文综述性描述最近几年基于深度学习的有监督语音分离的进展。首先，介绍语音分离的背景以及有监督分离的表达式。如何，讨论有监督分离的三个重要组成部分：学习机器、训练目标和声学特征。综述中大部分文章是基于单麦克方案，包含语音增强（语音和非语音的分类）、说话人分离（多个说话人的分类）、语音去混响，多麦克方案也是这些。本文讨论了有监督学习特有的泛化问题。本文从历史的视角探讨进展是如何产生的。另外，我们讨论了一些概念问题，包括目标源的组成是什么。

介绍：语音分离的目标是从背景干扰中分离出目标语音。语音分离是信号处理的基础任务，具有广泛的应用，包括听觉恢复术、手机通讯以及鲁棒自动语音和说话人识别。人类听觉系统具备从多混合源中提取单一声音源的非凡能力。在鸡尾酒宴会的声学环境中，一个人可以追踪固定目标人的声音，虽然周围有很多人声干扰和噪声干扰。语音分离任务也称之为“鸡尾酒宴会问题”，Cherry于1953年提出。

语音分离是声源分离的特例。感觉上，源分离对应听觉流分离，听觉感知领域的扩展研究主题。最早针对流分离的系统性研究是Miller和Heise，他们提出xx。

我们人类处理语音分离的能力如何？噪声环境下度量人类语音感知能力的一种方式是测量言语感受阈（speech reception threshold, SRT），即对于50%可懂值所需要的信噪比。

研读Speech separation is the task of separating target speech from background interference

Miller通过加入各种tone、宽带噪声、其它人声干扰来度量对可懂值的影响。通过测试听众的字可懂值，结果如上图显示，对可懂值影响最大的是宽带噪声，其次是多个人声干扰。

语音分离分为单麦和多麦克阵列方案。单麦克的两个传统方案是语音增强（speech enhancement）和计算听觉场景分析（CASA）。语音增强分析语音和噪声的统计量，从带噪语音中估计出噪声，从而获得干净语音的估计。最简单也是使用最广的的语音增强方法是谱减法，从带噪语音的功率谱中减去噪声的功率谱。为了估计背景噪声，语音增强假设背景噪声是平稳信号，即谱属性不随着时间变化，或者相对语音而言是稳定的。CASA是基于听觉场景分析的感知原则，探索一些其它维度线索，如pitch和onset。

基于多麦克的阵列方案是另一种思路。波束形成或者说空间滤波，通过核实的阵列配置，来增强不同方向的信号，抑制其它方向的干扰。最简单的波束形成是delay-and-sum技术方案。主要是利用相位差来削弱其它方向信号。噪声衰减的数量依赖阵列的空间尺寸和配置，通常来说随着麦克风个数和阵列长度的增加衰减越快。显然，空间滤波不能解决目标源和干扰源同向的情况。而且，波束形成在混响环境下效果会下降，因为混响会污染声源的方向。

近年来一种新的语音分离方案被提出，即基于有监督学习方案。有监督语音分离的原始公式来源于CASA领域的时频掩码(TF masking)。作为分离的一种方案，时频掩码应用一个二维的mask作用于带噪语谱图，从而获得干净语谱图的目的。CASA的主要目标是理想而知掩码（IBM），用于表征目标信号在T-F单元上的权重。听觉研究表明，不论是对于正常听觉人群还是听觉受损人群，理想二值掩蔽可以显著提升噪声环境的语音可懂度。将IBM作为计算目标，语音分离成为一个二分类问题，IBM就成了预测目标，可以通过有监督方案进行学习。