【问题标题】:Library to train GMMs from MFCC从 MFCC 训练 GMM 的图书馆
【发布时间】:2013-03-04 10:49:59
【问题描述】:

我正在尝试使用 MFCC、它们的 delta 和 delta-delta 从语音构建一个基本的情绪检测器。许多论文都谈到了通过在这些特征上训练 GMM 来获得良好的准确度。

我似乎找不到一个现成的包来做同样的事情。我确实玩过 Python 中的 scilearn、Matlab 中的 Voicebox 和类似工具包,以及 R 中的 Rmixmod、stochmod、mclust、mixtools 和其他一些包。从训练数据计算 GMM 的最佳库是什么?

【问题讨论】:

  • 最好是什么意思?你已经指出了一些在 R 中进行高斯混合建模的包,这里还有其他包cran.r-project.org/web/views/Cluster.html(下次你想使用首字母缩略词时请先定义它们!!)

标签: r audio speech-recognition gaussian mfcc


【解决方案1】:

具有挑战性的问题是训练数据,其中包含嵌入特征集中的情感信息。在测试信号中应该使用封装情绪的相同特征。使用 GMM 进行测试只会作为您的通用背景模型好。根据我通常使用 GMM 的经验,您只能区分男性女性和一些独特的演讲者。仅仅将 MFCC 输入 GMM 是不够的,因为 GMM 不保存时变信息。因为除了频率变化 MFCC 参数之外,情感语音还包含时变参数,例如音调和音调随时间段的变化。我并不是说以目前的技术状态不可能,而是以一种好的方式挑战。

【讨论】:

    【解决方案2】:

    如果你想使用 Python,这里是著名的语音识别工具包 Sphinx 中的代码。

    http://sourceforge.net/p/cmusphinx/code/HEAD/tree/trunk/sphinxtrain/python/cmusphinx/gmm.py

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2015-06-16
      • 1970-01-01
      • 2016-02-05
      • 2017-07-11
      • 2022-07-20
      • 1970-01-01
      相关资源
      最近更新 更多