如何使用机器学习从音频剪辑中提取人声？答案

【问题标题】：How to extract human voice from an audio clip, using machine learning?如何使用机器学习从音频剪辑中提取人声？
【发布时间】：2014-03-07 21:22:37
【问题描述】：

我们如何使用机器学习从音频剪辑中获取人声，该音频剪辑在整个频域上可能有很多噪声。

【问题讨论】：

你最后是怎么解决这个问题的？

标签： machine-learning speech-recognition curve-fitting speech-to-text speech

【解决方案1】：

与任何 ML 应用程序一样，该过程很简单：收集样本、设计特征、训练分类器。对于样本，您可以使用嘈杂的录音，或者您可以在 freesound.org 等网络声音集合中找到很多噪音。对于您可以使用均值归一化梅尔频率系数的功能，您可以在CMUSphinx speech recognition toolkit 中找到实现。对于分类器，您可以选择 GMM 或 SVM。如果你有足够的数据，它会很好地工作。

为了提高准确性，您可以添加噪声和语音是连续的假设，因此您可以使用 hangover 方案（本质上是 HMM）分析检测历史来检测语音块，而不是单独分析每一帧。

【讨论】：

你能提供一个很好的参考吗？
当然，您能否详细说明您要查找哪种参考资料？
一些关于降噪器背景理论和语音识别的阅读材料。提前致谢！
amazon.com/Spoken-Language-Processing-Algorithm-Development/dp/…