【发布时间】:2020-08-06 08:15:31
【问题描述】:
我正在尝试使用神经网络进行声音分类,并希望将 .wav 文件格式的 4 秒音频文件转换为图像。
我更喜欢使用 Librosa 库。另外我想知道如何读取这张图片并将其作为任何 CNN 模型的输入提供。
我确实在这里找到了类似的帖子,但它们并没有解决我的问题。
这是我迄今为止尝试过的:
y, sr = librosa.load('36902-3-2-0.wav')
S = librosa.feature.melspectrogram(y, sr, n_mels=128, fmax=8000)
librosa.display.specshow(librosa.power_to_db(S, ref=np.max), fmax=8000)
plt.savefig('mel.png')
我得到这张图片:
当我尝试使用matplotlib.pyplot 或cv2 读取图像时,我得到的只是一个填充有255 值的数组:
array([[[255, 255, 255],
[255, 255, 255],
[255, 255, 255],
...,
[255, 255, 255],
[255, 255, 255],
[255, 255, 255]],
[[255, 255, 255],
[255, 255, 255],
[255, 255, 255],
...,
[255, 255, 255],
[255, 255, 255],
[255, 255, 255]],
[[255, 255, 255],
[255, 255, 255],
[255, 255, 255],
...,
[255, 255, 255],
[255, 255, 255],
[255, 255, 255]],
...,
音频文件链接:https://drive.google.com/file/d/1BBgOxKy2-JMOHa90DCeFVLgoA7pEblVg/view?usp=sharing
【问题讨论】:
-
如果您不希望您的问题被否决,请按照以下说明操作:stackoverflow.com/help/how-to-ask
-
特别是:“帮助他人重现问题”
-
我想弄清楚如何将音频文件添加到我的问题中。
-
例如,如果您询问的是 wav 文件,请提供 wav 文件,否则无法重现。
标签: python deep-learning librosa