【发布时间】:2014-03-07 21:22:37
【问题描述】:
我们如何使用机器学习从音频剪辑中获取人声,该音频剪辑在整个频域上可能有很多噪声。
【问题讨论】:
-
你最后是怎么解决这个问题的?
标签: machine-learning speech-recognition curve-fitting speech-to-text speech
我们如何使用机器学习从音频剪辑中获取人声,该音频剪辑在整个频域上可能有很多噪声。
【问题讨论】:
标签: machine-learning speech-recognition curve-fitting speech-to-text speech
与任何 ML 应用程序一样,该过程很简单:收集样本、设计特征、训练分类器。对于样本,您可以使用嘈杂的录音,或者您可以在 freesound.org 等网络声音集合中找到很多噪音。对于您可以使用均值归一化梅尔频率系数的功能,您可以在CMUSphinx speech recognition toolkit 中找到实现。对于分类器,您可以选择 GMM 或 SVM。如果你有足够的数据,它会很好地工作。
为了提高准确性,您可以添加噪声和语音是连续的假设,因此您可以使用 hangover 方案(本质上是 HMM)分析检测历史来检测语音块,而不是单独分析每一帧。
【讨论】: