【发布时间】:2021-05-15 16:38:22
【问题描述】:
我正在为我正在使用 MFCC 的功能开展一个项目(从语音或语调中检测情绪),我在一定程度上了解这些功能,并且知道它们在语音方面是非常重要的功能。
这是我从 librosa 中使用的代码,用于从我的音频文件中提取特征,然后我将其用于神经网络进行训练:
dat, sample_rate = librosa.load(audio_path,res_type='kaiser_fast')
mfccs = np.mean(librosa.feature.mfcc(y=dat, sr=sample_rate,n_mfcc=13).T, axis=0)
我想知道的是,在取转置后取梅尔频率系数的平均值如何影响性能?我是否从我的音频文件中丢失了有价值的信息?或者我应该使用整个梅尔频率系数进行训练并做一些填充技术来确保训练特征的大小在所有训练音频文件中保持相同,因为它们的长度不同。
我还研究了其他技术,例如采用 mfcc 的导数并将它们连接在一起,但我仍然不确定哪种技术可以提供更好的特征集并最终提供更好的分类结果。
如果这两种技术不是那么有用,那么也许我应该坚持我目前的方法,如代码所示,即取平均值,并可能将我的梅尔频率系数数从 13 增加到更高的数字。
【问题讨论】:
标签: signal-processing speech-recognition feature-extraction feature-selection mfcc