【问题标题】:convolution neural network training taking substantial amount of time (using keras)卷积神经网络训练需要大量时间(使用 keras)
【发布时间】:2019-03-17 14:16:36
【问题描述】:

我正在使用 cifar-10 数据集来训练 CNN。 我正在使用我的 windows-10 笔记本电脑,keras 版本 - 2.2.4 和 python - 3.7
我使用来自 learnopencv.com 的示例之一使用 keras 构建了 CNN。
我正在使用 batch_size=256 和 epochs=50

每个 Epoch 需要接近 1000 秒,使得 50 epochs = 50000 秒 ~ 13 小时,这是非常高的。

我的 windows 笔记本电脑有 4 个 cpu,通过以下 python 代码确认。

import os
print(os.cpu_count())

有没有办法在训练中引入并行性(例如使用全部 4 个 CPU)并将训练时间减少 4 倍? . 租用带 gpu 的 aws 机器是另一种选择,但会产生成本。 g3s.xlarge 的收费约为每小时 0.45 美元。

用于构建模型的示例代码如下。

from keras.models import Sequential

from keras.layers import Dense , Conv2D ,Flatten,Dropout
from keras.layers import MaxPooling2D
model = Sequential()
model.add(Conv2D(32,(3,3),activation='relu',padding='same'))
model.add(Conv2D(32,(3,3),activation='relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Conv2D(64,(3,3),activation='relu',padding='same'))
model.add(Conv2D(64,(3,3),activation='relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Conv2D(64,(3,3),activation='relu',padding='same'))
model.add(Conv2D(64,(3,3),activation='relu'))
model.add(MaxPooling2D(pool_size=(2,2)))
model.add(Dropout(0.25))
model.add(Flatten())
model.add(Dense(512,activation='relu'))
model.add(Dropout(0.25))
model.add(Dense(10,activation='softmax'))

model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])

model.build()
from keras.datasets import cifar10

(x_train,y_train),(x_test,y_test) = cifar10.load_data()

from keras.utils import to_categorical
import numpy as np 
nClasses = np.unique(y_train)

nRows,nCols,nDims = x_train.shape[1:]

train_data = x_train.reshape(x_train.shape[0], nRows, nCols, nDims)
test_data = x_test.reshape(x_test.shape[0], nRows, nCols, nDims)

train_data = train_data.astype('float32')
test_data = test_data.astype('float32')

train_data /= 255
test_data /= 255

train_labels_one_hot = to_categorical(y_train)
test_labels_one_hot = to_categorical(y_test)

batch_size=256
epochs=50 

history = model.fit(train_data, train_labels_one_hot, batch_size=batch_size, epochs=epochs, verbose=1, 
                   validation_data=(test_data, test_labels_one_hot))

【问题讨论】:

    标签: keras deep-learning conv-neural-network


    【解决方案1】:

    如果您想并行运行 CNN,那么您将面临如何累积梯度以及如何更新单个模型的问题。这非常棘手,人工智能公司正在努力解决这个问题。

    如果您的目标是学习,请尝试使用 MINST 等较小的数据集,而不是 cifar。您还可以通过减少 CNN 模型的深度来提高 epoch 速度,即。减少一些层次。同样,如果您的目标纯粹是学习,您可以处理缩小的图像,这将减少模型权重的数量,从而减少训练时间。

    【讨论】:

    • 感谢您的建议。将尝试减少深度。关于数据集大小的一点。 cifar10 是 50000 个大小为 32*32 的图像,而 mnist 由 60000 个大小为 28*28 的图像组成。两个数据集的大小看起来非常相似。
    • @TanmayPatil 你是对的,但它们是灰度(单通道)。
    • 我在 google colab 中尝试使用 gpu 作为运行时,一个 epoch 需要 10 秒。但是这个 gpu 似乎是共享的(根据一些 stackoverflow 回复)
    猜你喜欢
    • 2018-05-01
    • 2019-01-14
    • 1970-01-01
    • 1970-01-01
    • 2016-07-21
    • 2016-07-01
    • 2020-09-10
    • 2015-09-06
    • 2016-08-17
    相关资源
    最近更新 更多