从 MFCC 训练 GMM 的图书馆答案

【问题标题】：Library to train GMMs from MFCC从 MFCC 训练 GMM 的图书馆
【发布时间】：2013-03-04 10:49:59
【问题描述】：

我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音构建一个基本的情绪检测器。许多论文都谈到了通过在这些特征上训练 GMM 来获得良好的准确度。

我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包，以及 R 中的 Rmixmod、stochmod、mclust、mixtools 和其他一些包。从训练数据计算 GMM 的最佳库是什么？

【问题讨论】：

最好是什么意思？你已经指出了一些在 R 中进行高斯混合建模的包，这里还有其他包cran.r-project.org/web/views/Cluster.html（下次你想使用首字母缩略词时请先定义它们！！）

标签： r audio speech-recognition gaussian mfcc

【解决方案1】：

具有挑战性的问题是训练数据，其中包含嵌入特征集中的情感信息。在测试信号中应该使用封装情绪的相同特征。使用 GMM 进行测试只会作为您的通用背景模型好。根据我通常使用 GMM 的经验，您只能区分男性女性和一些独特的演讲者。仅仅将 MFCC 输入 GMM 是不够的，因为 GMM 不保存时变信息。因为除了频率变化 MFCC 参数之外，情感语音还包含时变参数，例如音调和音调随时间段的变化。我并不是说以目前的技术状态不可能，而是以一种好的方式挑战。

【讨论】：

【解决方案2】：

如果你想使用 Python，这里是著名的语音识别工具包 Sphinx 中的代码。

http://sourceforge.net/p/cmusphinx/code/HEAD/tree/trunk/sphinxtrain/python/cmusphinx/gmm.py

【讨论】：