【发布时间】:2019-06-07 00:11:26
【问题描述】:
我想在 Keras(tensorflow、python)中创建一个基本的卷积自动编码器,用于音频(MP3、WAV 等)文件。
基本上,这就是我正在做的事情:
1) 将 mp3 转换为数组
def mp3_to_array(original_mp3):
blah blah blah
return original_array
2) 通过自动编码器运行数组,输出一个相似的(但有损,因为自动编码器操作)数组
def autoencoder(original_array):
autoencoder stuff
return new_array
3) 将数组转换为 mp3
def array_to_mp3(new_array):
halb halb halb
return new_mp3
我知道 Mel Spectrograms 和 Mel-frequency cepstral coefficients (mfcc's) 常用于分类系统。据我所知,我不能使用这些,因为它们不能在没有重大损失的情况下转换回 mp3。
是否有适合在卷积神经网络中使用的基于数组的、无损 *(或几乎无损)的表示转换方法,将 mp3 转换为数组,和反之亦然?
编辑:具体来说,我问的是第 1 步和第 3 步。我知道第 2 步本质上是有损的。
提前致谢!
【问题讨论】:
-
我会说这不是关于原始音频表示的问题,而是更多关于是否存在我会拒绝的无损卷积变换的问题
标签: python audio keras neural-network conv-neural-network