【问题标题】:CMU Sphinx for Voice/Speaker Recognition用于语音/说话人识别的 CMU Sphinx
【发布时间】:2013-12-05 17:15:32
【问题描述】:

我正在寻找一种方法来匹配已知数据集,比如 MP3 或 wav 文件列表,每个文件都是某人说​​话的样本。此时我知道文件 ABC 是关于人 X 说话的。

然后,我想再取一个样本,并进行一些语音匹配,以根据当时已知的数据集显示该语音最有可能出现在谁身上。

另外,我不一定在乎对方说了什么,只要我能找到匹配的,即我不需要任何转录或其他方式。

我知道 CMU Sphinx 不做语音识别,它主要用于语音到文本,但我见过其他系统,例如:LIUM Speaker Diarization (http://cmusphinx.sourceforge.net /wiki/speakerdiarization) 或 VoiceID 项目 (https://code.google.com/p/voiceid/),它使用 CMU 作为此类工作的基础。

如果我要使用 CMU,如何进行语音匹配?

另外,如果 CMU Sphinx 不是最好的框架,是否有开源替代方案?

【问题讨论】:

  • 有后续吗?你做了什么?你成功了吗?

标签: audio pattern-matching speech-recognition voice-recognition cmusphinx


【解决方案1】:

这门学科的复杂性足以满足博士论文的要求。目前还没有好的可靠的系统。

您要完成的任务非常复杂。你应该如何处理它取决于你的情况。

  • 您的人数是否有限?多少?
  • 每个人有多少数据?

如果您认识的人很少,您可以尝试一些简单的方法,例如获取这些人的formants 并将他们与样本进行比较。

否则 - 您必须联系一些研究该主题的学者或陪审团自行制定解决方案。不管怎样,正如我所说,这是一个难题。

【讨论】:

  • 我很好奇你关于没有好的和可靠的系统的说法。 this paper 提到了四个分类框架,并且 OP 提到的 LIUM 工具(从 2009 年开始)似乎使用得很好,例如由狮身人面像社区。这些现有方法是否有特定的局限性?
  • 我应该写“我什么都不知道”。不过,你看到这些结果了吗?他们不是那么好。使用语音作为生物特征仍然非常不可靠。
猜你喜欢
  • 1970-01-01
  • 2013-05-14
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2010-09-07
  • 1970-01-01
相关资源
最近更新 更多