即使检测到 GPU，Pytorch 也没有使用 GPU答案

【问题标题】：Pytorch is not using GPU even it detects the GPU即使检测到 GPU，Pytorch 也没有使用 GPU
【发布时间】：2019-04-02 06:42:24
【问题描述】：

我将 Windows 10 jupyter notebook 作为服务器并在其上运行一些火车。

我已经正确安装了 CUDA 9.0 和 cuDNN，python 检测到了 GPU。这是我在 anaconda 提示符下得到的。

>>> torch.cuda.get_device_name(0)
'GeForce GTX 1070'

我还通过 .cuda() 将模型和张量放在 cuda 上

model = LogPPredictor(1, 58, 64, 128, 1, 'gsc')

if torch.cuda.is_available():
    torch.set_default_tensor_type(torch.cuda.DoubleTensor)
    model.cuda()
else:
    torch.set_default_tensor_type(torch.FloatTensor)

list_train_loss = list()
list_val_loss = list()
acc = 0
mse = 0

optimizer = args.optim(model.parameters(),
                       lr=args.lr,
                       weight_decay=args.l2_coef)

data_train = DataLoader(args.dict_partition['train'], 
                        batch_size=args.batch_size,
                        pin_memory=True,
                        shuffle=args.shuffle)

data_val = DataLoader(args.dict_partition['val'],
                     batch_size=args.batch_size,
                     pin_memory=True,
                     shuffle=args.shuffle)

for epoch in tqdm_notebook(range(args.epoch), desc='Epoch'):
    model.train()
    epoch_train_loss = 0
    for i, batch in enumerate(data_train):
        list_feature = torch.tensor(batch[0]).cuda()
        list_adj = torch.tensor(batch[1]).cuda()
        list_logP = torch.tensor(batch[2]).cuda()
        list_logP = list_logP.view(-1,1)

        optimizer.zero_grad()
        list_pred_logP = model(list_feature, list_adj)
        list_pred_logP.require_grad = False
        train_loss = args.criterion(list_pred_logP, list_logP)
        epoch_train_loss += train_loss.item()
        train_loss.backward()
        optimizer.step()

    list_train_loss.append(epoch_train_loss/len(data_train))

    model.eval()
    epoch_val_loss = 0
    with torch.no_grad():
        for i, batch in enumerate(data_val):
            list_feature = torch.tensor(batch[0]).cuda()
            list_adj = torch.tensor(batch[1]).cuda()
            list_logP = torch.tensor(batch[2]).cuda()
            list_logP = list_logP.view(-1,1)


            list_pred_logP = model(list_feature, list_adj)
            val_loss = args.criterion(list_pred_logP, list_logP)
            epoch_val_loss += val_loss.item()

    list_val_loss.append(epoch_val_loss/len(data_val))

data_test = DataLoader(args.dict_partition['test'],
                   batch_size=args.batch_size,
                   pin_memory=True,
                   shuffle=args.shuffle)

model.eval()
with torch.no_grad():
    logP_total = list()
    pred_logP_total = list()
    for i, batch in enumerate(data_val):
        list_feature = torch.tensor(batch[0]).cuda()
        list_adj = torch.tensor(batch[1]).cuda()
        list_logP = torch.tensor(batch[2]).cuda()
        logP_total += list_logP.tolist()
        list_logP = list_logP.view(-1,1)


    list_pred_logP = model(list_feature, list_adj)

    pred_logP_total += list_pred_logP.tolist()

mse = mean_squared_error(logP_total, pred_logP_total)

但是在 Windows 的 Process Manager 上，每当我开始训练时，只有 CPU 使用率上升到 25%，而 GPU 使用率仍然为 0。我该如何解决这个问题？？？

【问题讨论】：

我已经安装了 pytorch 然后 cuda 和 cudnn 我必须在我的 conda 环境中重新安装 pytorch 吗？
我已经重新安装了 pytorch 但没有任何变化
您找到解决方案了吗？我也遇到了同样的问题
我也有同样的问题。没有解决办法吗？
我也有同样的问题。有更新吗？

标签： python gpu pytorch

【解决方案1】：

我在 Cuda 上使用 PyTorch 时遇到了类似的问题。在寻找可能的解决方案后，我发现以下 Soumith 自己的帖子非常有帮助。

https://discuss.pytorch.org/t/gpu-supposed-to-be-used-but-isnt/2883

底线是，至少在我的情况下，我无法在 GPU 上施加足够的负载。我的应用程序出现了瓶颈。尝试另一个示例，或增加批量大小；应该没问题。

【讨论】：