mxnet (gluon): 选择 gpu(0) 上下文时使用的 cpu答案

【问题标题】：mxnet (gluon): cpu used when gpu(0) context selectedmxnet (gluon): 选择 gpu(0) 上下文时使用的 cpu
【发布时间】：2018-07-19 09:59:53
【问题描述】：

EDIT 02/2018 在使用存储在本地的数据和不那么笨拙的准确度指标计算编写自己的代码后，我发现速度有了显着提高。 GPU 还会在我尝试在 mxnet 中构建的任何 CNN 中冲洗 CPU；即使只是使用 MNIST。我相信我的问题与教程代码有关，不再认为这是一个真正的问题。

我正在阅读 http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html 上的“胶子中的多层感知器”MNIST 教程

（相同的代码，除了将上下文设置为 gpu(0)，使用顺序模型）

我在 Windows 10 中。使用 python 3 (anaconda)，安装 CUDA 9.0 和 cuDNN v7.0.5 for 9.0，然后从 pip 安装 mxnet_cu90。

我将数据和模型上下文设置为 gpu(0)，但我的 gtx 1080 使用率徘徊在 1-4% 左右（无论脚本是否正在运行），而我的 8 个 Xeon 内核上升到大约 50-60%通过时代。无论上下文如何，训练时间都没有差异。当我在训练后打印参数时，它说它们是 NDArray size gpu(0)，所以它肯定认为它正在使用 gpu。

编辑：在我家的笔记本电脑上复制（gpu:GTX980m，cpu:I7 4710HQ）。在这种情况下，使用了 gpu：每个 epoch 使用 980m 从 0% 到 12%。但是，cpu 也使用了 >40% 的负载，而且 gpu 上下文训练实际上比在 cpu 上慢。

我开始认为，因为这是 MNIST/ANN 的一个简单问题，所以 gpu 并没有受到挑战。也许我会在训练 CNN 时看到 gpu 使用的更大影响。

不过我还是有点困惑，因为我在使用 TensorFlow 时从未遇到过这些问题；使用 gpu 通常总是优于我的 cpu。

任何帮助表示赞赏，谢谢， T.

编辑：所要求的代码：

#MULTILAYER PERCEPTRONS IN GLUON (MNIST)
#MODIFIED FROM: http://gluon.mxnet.io/chapter03_deep-neural-networks/mlp-gluon.html

#IMPORT REQUIRED PACKAGES
import numpy as np
import mxnet as mx
from mxnet import nd, autograd, gluon
import datetime #for comparing training times

#SET THE CONTEXTS (GPU/CPU)
ctx = mx.gpu(0) #note: original tutorial sets separate context variable for data/model. The data_ctx was never used so i submitted an issue on github and use a single ctx here
#ctx = mx.cpu()

#PREDEFINE SOME USEFUL NUMBERS
batch_size = 64
num_inputs = 784
num_outputs = 10 #ten hand written digits [0-9]
num_examples = 60000

#LOAD IN THE MNIST DATASET
def transform(data, label):
    return data.astype(np.float32)/255, label.astype(np.float32)
train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = True, transform = transform), batch_size, shuffle = True)
test_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train = False, transform = transform), batch_size, shuffle = False)

#MAKE SEQUENTIAL MODEL

num_hidden = 64
net = gluon.nn.Sequential()
with net.name_scope():
    net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
    net.add(gluon.nn.Dense(num_hidden, activation = "relu"))
    net.add(gluon.nn.Dense(num_outputs))

net.collect_params().initialize(mx.init.Normal(sigma = 0.01), ctx = ctx)

#SETUP THE FUNCTIONS FOR TRAINING

softmax_cross_entropy = gluon.loss.SoftmaxCrossEntropyLoss() #LOSS
trainer = gluon.Trainer(net.collect_params(), 'sgd', {'learning_rate': 0.01}) #OPTIMIZER

#DEFINE A LOOP TO TEST THE ACCURACY OF THE MODEL ON A TEST SET
def evaluate_accuracy(data_iterator, net):
    acc = mx.metric.Accuracy()
    for i, (data, label) in enumerate(data_iterator):
        data = data.as_in_context(ctx).reshape((-1,784))
        label = label.as_in_context(ctx)
        output = net(data)
        predictions = nd.argmax(output, axis = 1)
        acc.update(preds = predictions, labels = label)
    return acc.get()[1] #get the accuracy value from the mxnet accuracy metric

#TRAINING LOOP
epochs  = 10
smoothing_constant = 0.01
start_time = datetime.datetime.now()

for e in range(epochs):
    cumulative_loss = 0
    for i, (data, label) in enumerate(train_data):
        data = data.as_in_context(ctx).reshape((-1, 784))
        label = label.as_in_context(ctx)
        with autograd.record():
            output = net(data)
            loss = softmax_cross_entropy(output, label)
        loss.backward()
        trainer.step(data.shape[0])
        cumulative_loss += nd.sum(loss).asscalar()
    test_accuracy = evaluate_accuracy(test_data, net)
    train_accuracy = evaluate_accuracy(train_data, net)
    print("Epoch %s. Loss: %s, Train_acc %s, Test_acc %s" % (e, cumulative_loss/num_examples, train_accuracy, test_accuracy))

#I ADDED THIS TO GET THE FINAL PARAMETERS / NDARRAY CONTEXTS    
params = net.collect_params()
for param in params.values():
    print(param.name,param.data())

#I ADDED THIS TO COMPARE THE TIMING I GET WHEN SETTING THE CTX AS GPU/CPU   
end_time = datetime.datetime.now()
training_time = end_time - start_time
print("In h/m/s, total training time was: %s" % training_time)

CPU 上下文的结果： cmd output for params and total training time (cpu)

GPU 上下文的结果（实际上需要更长的时间）： cmd output for params and total training time (gpu)

【问题讨论】：

请向我们提供Minimal, Complete and Verifiable example，而不是链接和更改说明。现在有点郁闷
对不起，我是新手。目前正在尝试这样做。下班回来会贴代码
不，问题，欢迎加入社区

标签： python python-3.x mxnet cudnn

【解决方案1】：

有几件事会影响您的表现。

您的训练受到 DataLoader 的限制。使用 num_workers 增加获取数据并将数据预处理到 NDArrays 中的进程数量，以确保您的 GPU 不会饿死。例如train_data = mx.gluon.data.DataLoader(mx.gluon.data.vision.MNIST(train=True, transform=transform), batch_size, shuffle=True, num_workers=4)
MXNet 中的内置指标目前效率低下，尤其是在批量大小非常小时。在您分析训练循环（使用简单的 time()）时，您会注意到大部分时间都花在了准确度计算上，而不是训练上。但是，这在真正的 DL 训练会话中通常不是问题，因为训练数据大小通常远大于验证数据大小，并且您通常不会最终计算训练和验证准确性，如教程中所示。

不过，总体而言，GPU 利用率不会有很大的提高，因为教程网络和数据集非常简单。

【讨论】：

感谢新浪。我确实看到了增加批量大小的显着提升，所以我认为它肯定受到复制时间的限制。明天我将尝试为 DataLoader 启用更多内核，看看会有多大的不同。完成教程后，我将实现一些真实世界的模型。我主要想确保在潜入并训练模型数小时之前我没有配置错误的 gpu 设置或其他什么东西，而我可以在几分钟内完成。
是的，一切都配置正确。另请注意，在不更改任何其他超参数（例如学习率）的情况下增加批量大小不仅不会导致更快的训练收敛，而且可能不利于最终可实现的准确性。
感谢有关学习率等方面的提示。增加工人帮助很大。标记你的答案。干杯。 T

【解决方案2】：

虽然是在 Windows 机器上询问，但如果您在 Colab 上遇到此类问题（使用 GluonTS 时）， pip install mxnet-cu101 会解决的。

【讨论】：