在 python 中使用机器学习识别声音（单词）答案

【问题标题】：Recognition of a sound (a word) with machine learning in python在 python 中使用机器学习识别声音（单词）
【发布时间】：2017-01-22 00:25:47
【问题描述】：

我正在准备一个实验，我想用python编写一个程序来识别参与者所说的某些单词。

我在 python 中搜索了很多关于语音识别的信息，但结果很复杂。（例如 CMUSphinx）。

我想要实现的是一个程序，它接收一个声音文件（只包含一个单词，不是英语），我告诉程序声音的含义和我想看到的输出。

我看过关于识别手写数字的 sklearn example。我想知道我是否可以做类似示例的事情：

我可以用 python 和 sklearn 做到这一点吗？如果是这样，我应该从哪里开始？

谢谢！

【问题讨论】：

【解决方案1】：

我已经在文本识别中编写了这样的程序。我可以告诉您，如果您选择手动“教授”您的程序，您将需要做很多工作来考虑由于口音等引起的语音变化。

你可以开始looking for a sound analyzer here（音乐分析）。尝试识别像“是”这样的简单单词的波形，并编写一个算法来计算声音文件的变化百分比。通过这种方式，您可以留出余地来保护自己免受误报/反之亦然。

此外，您可能需要先从声音文件中去除背景噪音，因为它们可能会干扰您的识别模式。

【讨论】：