iOS / C：检测音素的算法答案

【问题标题】：iOS / C: Algorithm to detect phonemesiOS / C：检测音素的算法
【发布时间】：2011-09-17 05:47:04
【问题描述】：

我正在寻找一种算法来确定实时音频输入是否与 144 个给定（且完全不同）音素对中的一个匹配。

最好是完成这项工作的最低级别。

我正在为 iPhone / iPad 开发激进/实验性音乐训练软件。

我的音乐系统由 12 个辅音音素和 12 个元音音素组成，演示 here。这就产生了 144 个可能的音素对。学生必须根据视觉刺激唱出正确的音素对“laa duu bee”等。

我对此进行了大量研究，看来我最好的选择可能是使用 iOS Sphinx 包装器之一（iPhone App › Add voice recognition? 是我发现的最佳信息来源）。但是，我看不出我将如何调整这样的包，任何有使用这些技术经验的人都可以给出所需步骤的基本概要吗？

用户是否需要培训？与包含数千个单词的完整语言模型以及更大、更微妙的音素基础相比，我不会想到，因为这是一项基本的任务。然而，让用户训练 12 个音素对是可以接受的（不理想）：{ consonant1+vowel1, consonant2+vowel2, ..., consonant12+vowel12 }。完整的 144 太累赘了。

有没有更简单的方法？我觉得使用功能齐全的连续语音识别器正在使用大锤来破解坚果。使用可以解决问题的最少技术会更加优雅。

所以我真的在寻找任何能够识别音素的开源软件。

PS 我需要一个几乎可以实时运行的解决方案。所以即使他们在唱这个音符，它首先会闪烁以表明它拾取了所唱的音素对，然后它会发光以说明他们是否在唱正确的音高

【问题讨论】：

为什么要反对并投票结束？这是一个有效的编码问题，我提供了一个真实的使用上下文。有人在办公室度过了糟糕的一天吗？？
我没有投反对票，但你的问题很广泛，虽然主题具体，但本质上是模糊的。您的问题与其说是与代码相关，不如说是概念性的。这本身还不错，但可能不鼓励提出含糊不清的大问题。
@Moshe，不。我的问题没有任何含糊之处。我寻求实时音素识别的代码。此外，我指定了音素基础的限制。

标签： ios real-time detection speech-recognition phoneme

【解决方案1】：

如果您正在寻找手机级别的开源识别器，那么我会推荐HTK。该工具以 HTK Book 的形式提供了非常好的文档。它还包含一整章专门用于构建电话级实时语音识别器。从您上面的问题陈述来看，在我看来，您可能可以将该示例重新设计为您自己的解决方案。可能的陷阱：

由于您想做一个电话级别的识别器，训练电话模型所需的数据会非常高。此外，您的培训数据库应在电话分布方面保持平衡。
构建独立于扬声器的系统需要来自多个扬声器的数据。还有很多。
由于这是开源的，您还应该查看许可信息以了解有关发送代码的任何其他详细信息。一个不错的选择是使用电话录音机，然后将记录的波形通过数据通道发送到服务器进行识别，这与谷歌所做的非常相似。

【讨论】：

很高兴能帮到你。

【解决方案2】：

我对这种类型的信号处理有一点经验，我想说这可能不是可以明确回答的有限问题类型。

值得注意的一点是，尽管您可能会限制您感兴趣的音素，但可能性空间保持不变（即无限大）。用户训练可能会对算法有所帮助，但有用的训练需要相当长的时间，而且您似乎厌恶太多。

使用 Sphinx 可能是解决这个问题的一个很好的开始。我自己在库中还没有走多远，但我猜你将自己使用它的源代码来获得你想要的东西。（开源万岁！）

...用大锤敲碎坚果。

我不会给你的问题贴上疯子的标签，我会说它更像是一头野兽。它可能是与自然语言语音识别不同的野兽，但它仍然是野兽。

祝你解决问题一切顺利。

【讨论】：

【解决方案3】：

不确定这是否有帮助：查看OpenEars'LanguageModelGenerator。 OpenEars 使用 Sphinx 和其他库。

【讨论】：

【解决方案4】：

http://www.hfink.eu/matchbox

此页面链接到 YouTube 视频演示和 github 源代码。

我猜想将它塑造成我想要的形状仍然需要很多工作，但也确实做了很多工作。

【讨论】：