用于语音/说话人识别的 CMU Sphinx答案

【问题标题】：CMU Sphinx for Voice/Speaker Recognition用于语音/说话人识别的 CMU Sphinx
【发布时间】：2013-12-05 17:15:32
【问题描述】：

我正在寻找一种方法来匹配已知数据集，比如 MP3 或 wav 文件列表，每个文件都是某人说话的样本。此时我知道文件 ABC 是关于人 X 说话的。

然后，我想再取一个样本，并进行一些语音匹配，以根据当时已知的数据集显示该语音最有可能出现在谁身上。

另外，我不一定在乎对方说了什么，只要我能找到匹配的，即我不需要任何转录或其他方式。

我知道 CMU Sphinx 不做语音识别，它主要用于语音到文本，但我见过其他系统，例如：LIUM Speaker Diarization (http://cmusphinx.sourceforge.net /wiki/speakerdiarization) 或 VoiceID 项目 (https://code.google.com/p/voiceid/)，它使用 CMU 作为此类工作的基础。

如果我要使用 CMU，如何进行语音匹配？

另外，如果 CMU Sphinx 不是最好的框架，是否有开源替代方案？

【问题讨论】：

有后续吗？你做了什么？你成功了吗？

标签： audio pattern-matching speech-recognition voice-recognition cmusphinx

【解决方案1】：

这门学科的复杂性足以满足博士论文的要求。目前还没有好的可靠的系统。

您要完成的任务非常复杂。你应该如何处理它取决于你的情况。

您的人数是否有限？多少？
每个人有多少数据？

如果您认识的人很少，您可以尝试一些简单的方法，例如获取这些人的formants 并将他们与样本进行比较。

否则 - 您必须联系一些研究该主题的学者或陪审团自行制定解决方案。不管怎样，正如我所说，这是一个难题。

【讨论】：

我很好奇你关于没有好的和可靠的系统的说法。 this paper 提到了四个分类框架，并且 OP 提到的 LIUM 工具（从 2009 年开始）似乎使用得很好，例如由狮身人面像社区。这些现有方法是否有特定的局限性？
我应该写“我什么都不知道”。不过，你看到这些结果了吗？他们不是那么好。使用语音作为生物特征仍然非常不可靠。