LXP-Never

论文地址:MetricGAN+:用于语音增强的 MetricGAN 的改进版本

论文代码:https://github.com/JasonSWFu/MetricGAN

引用格式:Fu S W, Yu C, Hsieh T A, et al. MetricGAN+: An Improved Version of MetricGAN for Speech Enhancement[J]. arXiv preprint arXiv:2104.03538, 2021.

摘要

  用于训练语音增强模型的代价函数与人类的听觉感知之间的差异往往使增强后的语音质量不能令人满意。因此,考虑人的感知的客观评价指标可以作为缩小差距的桥梁。我们之前提出的MetricGAN旨在通过将指标与鉴别器相连接来优化目标指标。因为在训练过程中只需要目标评估函数的分数,所以度量甚至可以是不可微的。在这项研究中,我们提出了一个MetricGAN+,其中提出了三种结合语音处理领域知识的训练技术。在Voicebank-Demand数据集上的实验结果表明,与之前的MetricGAN相比,MetricGAN+可以将PESQ分数提高0.3,并获得最先进的结果(PESQ分数=3.15)。

关键词:语音增强、语音质量优化、黑盒评分优化、MetricGAN

1  引言

  语音增强(SE)模型有许多不同的应用和目标。例如,在人与人之间的交流中,我们关心语音质量或清晰度(例如,在具有严重背景噪声的电话通话中,清晰度可能比质量更重要)。另一方面,在人机通信中,SE的目标是提高语音识别性能(例如,降低自动语音识别(ASR)系统在噪声条件下的误词率(WER))。因此,训练特定于任务的SE模型可以为其目标应用程序获得更好的性能。

   要部署特定于任务的SE模型,最直观的方法是采用与最终目标相关的损失函数。虽然基于信号电平的差异(例如,

相关文章: