【发布时间】:2017-01-22 00:25:47
【问题描述】:
我正在准备一个实验,我想用python编写一个程序来识别参与者所说的某些单词。
我在 python 中搜索了很多关于语音识别的信息,但结果很复杂。(例如 CMUSphinx)。
我想要实现的是一个程序,它接收一个声音文件(只包含一个单词,不是英语),我告诉程序声音的含义和我想看到的输出。
我看过关于识别手写数字的 sklearn example。我想知道我是否可以做类似示例的事情:
- 训练程序根据不同人说同一个词的声音文件返回某些输出(例如数字);
- 当从其他人说相同单词的新声音文件中获取时,返回相同的值。
我可以用 python 和 sklearn 做到这一点吗? 如果是这样,我应该从哪里开始?
谢谢!
【问题讨论】:
标签: python audio machine-learning