经典的Python深度学习网络Alex Net使用 数据扩充 的方式扩大数据集,取得较好的分类效果。在Python深度学习的图像领域中,通过平移、 翻转、加噪等方法进行数据扩充。但是,在 音频 领域中,如何进行数据扩充呢?
在这里还是要推荐下我自己建的Python开发学习群:483546416,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴
音频处理基于librosa音频库;矩阵操作基于scipy和numpy科学计算库。
以下是Python的实现方式:
音频加噪,注意:在添加随机噪声时,保留0值,否则刺耳难忍!
import librosa
from scipy.io import wavfile
import numpy as np
y, sr = librosa.load("../data/raw/love_illusion_20s.mp3") # 读取音频
wn = np.random.randn(len(y))
y = np.where(y != 0.0, y + 0.02 * wn, 0.0) # 噪声不要添加到0上!
print y.shape, sr
wavfile.write("../data/raw/love_illusion_20s_w.mp3", sr, y) # 写入音频