【发布时间】:2017-01-23 01:23:06
【问题描述】:
我目前正在尝试实现一个 cnn 网络,它可以将输入映射到输出。
输入由 stft 的音频文件组成,输出是一个特征向量。
由于音频文件的长度不同,总样本的数量会不会一直不同,但每个样本的帧长为25毫秒,10毫秒重叠。形状(x,2050)
输出是一个特征向量,形状为 (x,13)。
我认为在这里使用 cnn 似乎很合适,因为 stft 由于重叠,每个输入都包含前一个样本的一些信息。
是否可以在 keras 中设计一个模型,利用这一点,因此将为矩阵的每一行计算一个卷积和,并以某种方式让它知道 25 帧长度和 10 重叠。
【问题讨论】:
标签: python-2.7 keras conv-neural-network