python深度学习之语音识别(speech recognize)

问题描述

speech recognize是kaggle上1，2年前的一个赛题，主要描述的是如果在各种环境中识别出简单的英文单词发音，比如bed，cat，right之类的语音。提供的训练集是.wav格式的语音，解压后数据集大小在2G左右。

训练集分析

语音识别相对图片识别来说，是一个区别较大的领域。所以首先要了解训练集的基本特征，理清不同语音之间的共性。

振幅和频率

def log_specgram(audio, sample_rate, window_size=20,
                 step_size=10, eps=1e-10):
    nperseg = int(round(window_size * sample_rate / 1e3))
    noverlap = int(round(step_size * sample_rate / 1e3))
    freqs, times, spec = signal.spectrogram(audio,
                                            fs=sample_rate,
                                            window=\'hann\',
                                            nperseg=nperseg,
                                            noverlap=noverlap,
                                            detrend=False)
    return freqs, times, np.log(spec.T.astype(np.float32) + eps)


def plt_specgram(freqs, times, spectrogram):
    fig = plt.figure(figsize=(14, 8))
    ax1 = fig.add_subplot(211)
    ax1.set_title(\'Raw wave of \' + filename)
    ax1.set_ylabel(\'Amplitude\')
    ax1.plot(np.linspace(0, sample_rate / len(samples), sample_rate), samples)

    ax2 = fig.add_subplot(212)
    ax2.imshow(spectrogram.T, aspect=\'auto\', origin=\'lower\',
               extent=[times.min(), times.max(), freqs.min(), freqs.max()])
    ax2.set_yticks(freqs[::16])
    ax2.set_xticks(times[::16])
    ax2.set_title(\'Spectrogram of \' + filename)
    ax2.set_ylabel(\'Freqs in Hz\')
    ax2.set_xlabel(\'Seconds\')

    plt.savefig(\'./output/yes_0a7c2a8d_nohash_0.png\')
    plt.show()

train_audio_path = \'./input/train/audio/\'
filename = \'/yes/0a7c2a8d_nohash_0.wav\'
sample_rate, samples = wavfile.read(str(train_audio_path) + filename)
# print(sample_rate, samples)

# 频谱图
freqs, times, spectrogram = log_specgram(samples, sample_rate)
plt_specgram(freqs, times, spectrogram)

声音强度

def plt_spectrogram():
    plt.figure(figsize=(12, 4))
    librosa.display.specshow(log_S, sr=sample_rate, x_axis=\'time\', y_axis=\'mel\')
    plt.title(\'Mel power spectrogram \')
    plt.colorbar(format=\'%+02.0f dB\')
    plt.tight_layout()

    plt.savefig(\'./output/spectrogram.png\')
    plt.show()

# 光谱图
sig = samples
sig = sig / max(abs(sig))
S = librosa.feature.melspectrogram(y=sig, sr=sample_rate, n_mels=128)
log_S = librosa.power_to_db(S, ref=np.max)

plt_spectrogram()

三维图像

def spectrogram_3d():
    data = [go.Surface(z=spectrogram.T)]

    layout = go.Layout(
        title=\'Specgtrogram of "yes" in 3d\',
        scene=dict(
            yaxis=dict(title=\'Frequencies\'),
            xaxis=dict(title=\'Time\'),
            zaxis=dict(title=\'Log amplitude\'),
        ),
    )

    fig = go.Figure(data=data, layout=layout)
    py.plot(fig)
spectrogram_3d()

不同音频的总数统计

def count_summary():
    dirs.sort()
    print(\'Number of labels: \' + str(len(dirs)))

    number_of_recordings = []
    for direct in dirs:
        waves = [f for f in os.listdir(join(train_audio_path, direct)) if f.endswith(\'.wav\')]
        number_of_recordings.append(len(waves))

    speech_count = dict(map(lambda x, y: [x, y], dirs, number_of_recordings))
    print(speech_count)
count_summary()
"""输出
{\'_background_noise_\': 6, \'bed\': 1713, \'bird\': 1731, \'cat\': 1733, \'dog\': 1746, \'down\': 2359, \'eight\': 2352, \'five\': 2357, \'four\': 2372, \'go\': 2372, \'happy\': 1742, \'house\': 1750, \'left\': 2353, \'marvin\': 1746, \'nine\': 2364, \'no\': 2375, \'off\': 2357, \'on\': 2367, \'one\': 2370, \'right\': 2367, \'seven\': 2377, \'sheila\': 1734, \'six\': 2369, \'stop\': 2380, \'three\': 2356, \'tree\': 1733, \'two\': 2373, \'up\': 2375, \'wow\': 1745, \'yes\': 2377, \'zero\': 2376}
"""

每个英文发音的特征识别

def mean_fft():
    to_keep = \'yes no up down left right on off stop go\'.split()
    dir = [d for d in dirs if d in to_keep]

    print(dir)

    for direct in dir:
        vals_all = []
        spec_all = []

        waves = [f for f in os.listdir(join(train_audio_path, direct)) if f.endswith(\'.wav\')]
        for wav in waves:
            sample_rate, samples = wavfile.read(train_audio_path + direct + \'/\' + wav)
            if samples.shape[0] != 16000:
                continue
            xf, vals = custom_fft(samples, 16000)
            vals_all.append(vals)
            freqs, times, spec = log_specgram(samples, 16000)
            spec_all.append(spec)

        plt.figure(figsize=(14, 4))
        plt.subplot(121)
        plt.title(\'Mean fft of \' + direct)
        plt.plot(np.mean(np.array(vals_all), axis=0))
        plt.grid()
        plt.subplot(122)
        plt.title(\'Mean specgram of \' + direct)
        plt.imshow(np.mean(np.array(spec_all), axis=0).T, aspect=\'auto\', origin=\'lower\',
                   extent=[times.min(), times.max(), freqs.min(), freqs.max()])
        plt.yticks(freqs[::16])
        plt.xticks(times[::16])

        plt.savefig(\'./output/mean_fft_\' + direct + \'.png\')
        plt.show()
mean_fft()

代码是把所有英文单词的特征图都输出，这里只展示down和yes，2个特征图

原始数据处理

for label, fname in zip(labels, fnames):
    sample_rate, samples = wavfile.read(os.path.join(train_data_path, label, fname))
    samples = pad_audio(samples)
    if len(samples) > 16000:
        n_samples = chop_audio(samples)
    else:
        n_samples = [samples]
    for samples in n_samples:
        resampled = signal.resample(samples, int(new_sample_rate / sample_rate * samples.shape[0]))
        _, _, specgram = log_specgram(resampled, sample_rate=new_sample_rate)
        y_train.append(label)
        x_train.append(specgram)

x_train = np.array(x_train)
x_train = x_train.reshape(tuple(list(x_train.shape) + [1]))
y_train = label_transform(y_train)
label_index = y_train.columns.values
y_train = y_train.values
y_train = np.array(y_train)
del labels, fnames
gc.collect()

cnn建模

def model_cnn(x_train, y_train):
    input_shape = (99, 81, 1)
    nclass = 12
    inp = Input(shape=input_shape)
    norm_inp = BatchNormalization()(inp)
    img_1 = Convolution2D(8, kernel_size=2, activation=activations.relu)(norm_inp)
    img_1 = Convolution2D(8, kernel_size=2, activation=activations.relu)(img_1)
    img_1 = MaxPooling2D(pool_size=(2, 2))(img_1)
    img_1 = Dropout(rate=0.2)(img_1)
    img_1 = Convolution2D(16, kernel_size=3, activation=activations.relu)(img_1)
    img_1 = Convolution2D(16, kernel_size=3, activation=activations.relu)(img_1)
    img_1 = MaxPooling2D(pool_size=(2, 2))(img_1)
    img_1 = Dropout(rate=0.2)(img_1)
    img_1 = Convolution2D(32, kernel_size=3, activation=activations.relu)(img_1)
    img_1 = MaxPooling2D(pool_size=(2, 2))(img_1)
    img_1 = Dropout(rate=0.2)(img_1)
    img_1 = Flatten()(img_1)

    dense_1 = BatchNormalization()(Dense(128, activation=activations.relu)(img_1))
    dense_1 = BatchNormalization()(Dense(128, activation=activations.relu)(dense_1))
    dense_1 = Dense(nclass, activation=activations.softmax)(dense_1)

    model = models.Model(inputs=inp, outputs=dense_1)
    opt = optimizers.Adam()

    model.compile(optimizer=opt, loss=losses.binary_crossentropy)
    model.summary()

    x_train, x_valid, y_train, y_valid = train_test_split(x_train, y_train, test_size=0.1, random_state=2017)
    model.fit(x_train, y_train, batch_size=16, validation_data=(x_valid, y_valid), epochs=3, shuffle=True, verbose=2)

    model.save(os.path.join(model_path, \'cnn.model\'))

    return model

model = model_cnn(x_train, y_train)

"""输出
Using TensorFlow backend.
2019-06-15 20:59:45.453845 task begin
./input/train/audio
2019-06-15 20:59:46.634215 xy begin
/Users/user/Library/Python/3.6/lib/python/site-packages/scipy/io/wavfile.py:273: WavFileWarning: Chunk (non-data) not understood, skipping it.
  WavFileWarning)
2019-06-15 21:02:35.116550 reshape begin
2019-06-15 21:02:46.166546 model begin
WARNING:tensorflow:From /Library/Frameworks/Python.framework/Versions/3.6/lib/python3.6/site-packages/tensorflow/python/framework/op_def_library.py:263: colocate_with (from tensorflow.python.framework.ops) is deprecated and will be removed in a future version.
Instructions for updating:
Colocations handled automatically by placer.
2019-06-15 21:02:46.278603: I tensorflow/core/platform/cpu_feature_guard.cc:141] Your CPU supports instructions that this TensorFlow binary was not compiled to use: AVX2 FMA
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
input_1 (InputLayer)         (None, 99, 81, 1)         0
_________________________________________________________________
batch_normalization_1 (Batch (None, 99, 81, 1)         4
_________________________________________________________________
conv2d_1 (Conv2D)            (None, 98, 80, 8)         40
_________________________________________________________________
conv2d_2 (Conv2D)            (None, 97, 79, 8)         264
_________________________________________________________________
max_pooling2d_1 (MaxPooling2 (None, 48, 39, 8)         0
_________________________________________________________________
dropout_1 (Dropout)          (None, 48, 39, 8)         0
_________________________________________________________________
conv2d_3 (Conv2D)            (None, 46, 37, 16)        1168
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 44, 35, 16)        2320
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 22, 17, 16)        0
_________________________________________________________________
dropout_2 (Dropout)          (None, 22, 17, 16)        0
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 20, 15, 32)        4640
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 10, 7, 32)         0
_________________________________________________________________
dropout_3 (Dropout)          (None, 10, 7, 32)         0
_________________________________________________________________
flatten_1 (Flatten)          (None, 2240)              0
_________________________________________________________________
dense_1 (Dense)              (None, 128)               286848
_________________________________________________________________
batch_normalization_2 (Batch (None, 128)               512
_________________________________________________________________
dense_2 (Dense)              (None, 128)               16512
_________________________________________________________________
batch_normalization_3 (Batch (None, 128)               512
_________________________________________________________________
dense_3 (Dense)              (None, 12)                1548
=================================================================
Total params: 314,368
Trainable params: 313,854
Non-trainable params: 514
_________________________________________________________________
Instructions for updating:
Use tf.cast instead.
Train on 58356 samples, validate on 6485 samples
Epoch 1/3
 - 737s - loss: 0.1415 - val_loss: 0.0874
Epoch 2/3
 - 608s - loss: 0.0807 - val_loss: 0.0577
Epoch 3/3
 - 518s - loss: 0.0636 - val_loss: 0.0499
2019-06-15 21:33:58.518621 predict begin
"""

预测

del x_train, y_train
gc.collect()

index = []
results = []
for fnames, imgs in test_data_generator(batch=32):
    predicts = model.predict(imgs)
    predicts = np.argmax(predicts, axis=1)
    predicts = [label_index[p] for p in predicts]
    index.extend(fnames)
    results.extend(predicts)

df = pd.DataFrame(columns=[\'fname\', \'label\'])
df[\'fname\'] = index
df[\'label\'] = results
df.to_csv(os.path.join(out_path, \'sub.csv\'), index=False)

关于预测的数据集，kaggle提供的压缩包有2，3G，解压后有将近10w条音频，个人笔记本吃不消。于是只选取其中的100条来测试，根据预测出的结果，和自己听取wav音频的结果对比，是正确的。但是并没有在大规模的数据集上预测，所以准确率不可知。后续在GPU上训练时，再考虑预测所有的数据。

完整代码下载

githup源码