【问题标题】:Recognition of a sound (a word) with machine learning in python在 python 中使用机器学习识别声音(单词)
【发布时间】:2017-01-22 00:25:47
【问题描述】:

我正在准备一个实验,我想用python编写一个程序来识别参与者所说的某些单词。

我在 python 中搜索了很多关于语音识别的信息,但结果很复杂。(例如 CMUSphinx)。

我想要实现的是一个程序,它接收一个声音文件(只包含一个单词,不是英语),我告诉程序声音的含义和我想看到的输出。

我看过关于识别手写数字的 sklearn example。我想知道我是否可以做类似示例的事情:

  1. 训练程序根据不同人说同一个词的声音文件返回某些输出(例如数字);
  2. 当从其他人说相同单词的新​​声音文件中获取时,返回相同的值。

我可以用 python 和 sklearn 做到这一点吗? 如果是这样,我应该从哪里开始?

谢谢!

【问题讨论】:

    标签: python audio machine-learning


    【解决方案1】:

    我已经在文本识别中编写了这样的程序。我可以告诉您,如果您选择手动“教授”您的程序,您将需要做很多工作来考虑由于口音等引起的语音变化。

    你可以开始looking for a sound analyzer here(音乐分析)。尝试识别像“是”这样的简单单词的波形,并编写一个算法来计算声音文件的变化百分比。通过这种方式,您可以留出余地来保护自己免受误报/反之亦然。

    此外,您可能需要先从声音文件中去除背景噪音,因为它们可能会干扰您的识别模式。

    【讨论】:

    • 感谢您的回复。由于我没有太多时间从零开始学习一切,所以我决定使用在线语音识别 api,例如 google Speech api。一有时间,我会尝试进一步挖掘。
    猜你喜欢
    • 2020-07-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-06-16
    • 2019-01-19
    相关资源
    最近更新 更多