【发布时间】:2013-12-05 17:15:32
【问题描述】:
我正在寻找一种方法来匹配已知数据集,比如 MP3 或 wav 文件列表,每个文件都是某人说话的样本。此时我知道文件 ABC 是关于人 X 说话的。
然后,我想再取一个样本,并进行一些语音匹配,以根据当时已知的数据集显示该语音最有可能出现在谁身上。
另外,我不一定在乎对方说了什么,只要我能找到匹配的,即我不需要任何转录或其他方式。
我知道 CMU Sphinx 不做语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization (http://cmusphinx.sourceforge.net /wiki/speakerdiarization) 或 VoiceID 项目 (https://code.google.com/p/voiceid/),它使用 CMU 作为此类工作的基础。
如果我要使用 CMU,如何进行语音匹配?
另外,如果 CMU Sphinx 不是最好的框架,是否有开源替代方案?
【问题讨论】:
-
有后续吗?你做了什么?你成功了吗?
标签: audio pattern-matching speech-recognition voice-recognition cmusphinx