语音识别，字典中的单词答案

【问题标题】：Speech recognition, words out of dictionary语音识别，字典中的单词
【发布时间】：2014-06-23 17:27:15
【问题描述】：

我正在使用传统程序进行单词识别。我正在提取 MFCC 特征。然后我正在创建一个代码书以进行矢量量化。之后，我为两个词训练离散 HMM：1stWrod、2dWord。

到目前为止，我一直在执行这样的分类：我通过适当的特征提取和量化来估计新音频片段的两个训练模型中的概率。我说音频对应于概率最高的类。这给了我很好的结果。

但任何音频片段都被归类为这些词中的任何一个，但有时并非如此。我不知道怎么说那不对应任何类。我不确定是否可以通过使用所有其他数据训练另一个模型来解决这个问题，因为它非常不同，我认为模型还不够。

【问题讨论】：

【解决方案1】：

一个非常简单的方法是分数标准化。

首先，对于每个单词模型（W1 和 W2），您需要计算多个真阳性测试实例的可能性。然后，您可以使用高斯拟合对这些可能性进行建模，计算每个词模型的平均值和标准差。最后，当检查未知单词wj是否属于W1或W2时，您只需将其分数标准化如下：

对于模型W1 和W2，其中LLj 是j-th 字测试实例的对数似然。以下-3 中的任何分数都表示特定测试词不能被归一化过程中使用的模型（W1 或 W2）正确建模。如果两个归一化分数都小于-3，则测试词既不能被W1 也不能被W2 建模，因此是另一个词。

您需要为每个模型设置一个正确数量的真阳性测试词，以便正确估计平均值和标准差。那么，多少是一个合适的数，就看你的实际数据了。

【讨论】：

我按照你告诉我的做了，但是出于某种原因，有些声音是给 -Inf 的，不要让我有这个意思。我正在使用 MATLAB 的 Kevin Murphy 库，但这也发生在 MATLAB 中的内置函数中。
如果对数似然变为 -Inf，则意味着您在如何创建特征向量方面存在问题。这意味着您当前使用的模型与数据完全不匹配。检查原始音频文件是否有任何问题（编码错误、采样率错误等），并仔细检查您是如何执行特征提取的。