【问题标题】:Confused about MFCC processing对 MFCC 处理感到困惑
【发布时间】:2021-10-22 10:35:39
【问题描述】:

因此,我使用 Python 中的 Librosa 库提取了带有 MFCC 的音频文件功能。这是代码的样子:

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是,为什么我们必须转置并获得 MFCC 的平均值?

【问题讨论】:

  • 这完全取决于您的用例。这可能是dsp.stackexchange.com 的问题,但即便如此,它也需要更多详细信息

标签: python audio feature-extraction librosa mfcc


【解决方案1】:

取转置 MFCC 的平均值显示 mel 系数随时间变化的平均能量。 这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

例如,下图(a)显示了一些噪声的 21 阶梅尔谱,(b)显示了每个时间帧的平均能量。 这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。

正如 cmets 中所述,这不是强制性的,这完全取决于您的情况。

该图取自以下出版物。

毕崇光等。 “Familylog:用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。 IEEE,2017 年。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-02-04
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2015-08-23
    相关资源
    最近更新 更多