对 MFCC 处理感到困惑

【问题标题】：Confused about MFCC processing对 MFCC 处理感到困惑
【发布时间】：2021-10-22 10:35:39
【问题描述】：

因此，我使用 Python 中的 Librosa 库提取了带有 MFCC 的音频文件功能。这是代码的样子：

signal, sample_rate = librosa.load('../audio_train/down/00176480_nohash_0.wav', sr=22050)
mfcc = librosa.feature.mfcc(signal, sr=sample_rate, n_mfcc=13)
np.mean(mfcc.T, axis=0)

我的问题是，为什么我们必须转置并获得 MFCC 的平均值？

【问题讨论】：

这完全取决于您的用例。这可能是dsp.stackexchange.com 的问题，但即便如此，它也需要更多详细信息

标签： python audio feature-extraction librosa mfcc

【解决方案1】：

取转置 MFCC 的平均值显示 mel 系数随时间变化的平均能量。这有时有助于更好地可视化特征能量差异如何沿时间轴分布。

例如，下图（a）显示了一些噪声的 21 阶梅尔谱，（b）显示了每个时间帧的平均能量。这种可视化有助于区分在 1.25 秒和 1.5 秒之间录制的人声。

正如 cmets 中所述，这不是强制性的，这完全取决于您的情况。

该图取自以下出版物。

毕崇光等。 “Familylog：用于监控家庭用餐时间活动的移动系统。” 2017 年 IEEE 普适计算与通信国际会议 (PerCom)。 IEEE，2017 年。

【讨论】：