【问题标题】:How to use MFCC vectors for classifying a single audio file?如何使用 MFCC 向量对单个音频文件进行分类?
【发布时间】:2013-05-08 22:21:20
【问题描述】:

这可能是一个非常愚蠢的问题,但我在任何地方都找不到详细信息。

所以我有一个 3 秒长的录音(wav 文件)。那是我的样本,需要分类为 [class_A] 或 [class_B]。

通过遵循一些关于 MFCC 的教程,我将样本分成几帧(准确地说是 291 帧),并且我从每一帧中得到了 MFCC。

现在我有291个特征向量,每个向量的长度是13。

我的问题是;您如何将这些向量与分类器(例如 k-NN)一起使用?我有 291 个向量代表 1 个样本。我知道如何为 1 个样本使用 1 个向量,但如果我有 291 个样本,我不知道该怎么做。我真的找不到任何解释。

【问题讨论】:

  • 你能提供你如何解决它的链接吗?
  • 能否请您发布您的解决方案

标签: audio classification knn mfcc


【解决方案1】:

每个向量都将代表音频文件的频谱特征,因为它会随时间变化。根据帧的长度,您可能希望将其中的一些分组(例如通过按维度平均)以匹配您希望分类器工作的分辨率。例如,考虑一个特定的声音,它可能有一个起音时间为 2 毫秒的包络:这可能是您希望通过时间量化获得的细粒度,因此您可以 a) 对 MFCC 向量的数量进行分组和平均代表2ms;或 b) 以所需的时间分辨率重新计算 MFCC。

如果您真的想保持良好的分辨率,您可以连接 291 个向量并将其视为单个向量(291 x 13 维),这可能需要一个庞大的数据集来训练。

【讨论】:

  • 我为一个音频文件生成了一个 mfcc,它的形状为 (20,5211),所以这是 5211 个向量,每个向量都有 20 个 mfcc 值。我如何给它一个神经网络?我很困惑。
  • @kRazzyR 我没有使用神经网络。我使用了支持向量机。我建议你看看 sk-learn 神经网络教程here
猜你喜欢
  • 2017-12-26
  • 2014-11-17
  • 2017-04-24
  • 1970-01-01
  • 2013-02-16
  • 1970-01-01
  • 2019-05-05
  • 1970-01-01
  • 2022-07-26
相关资源
最近更新 更多