【发布时间】:2020-12-05 04:13:43
【问题描述】:
我在 GPU 上训练神经网络模型,但使用时出现上述错误
torch.save()保存检查点。我的问题是,即使我有一个 CUDA 设备,为什么我会收到上述错误?我的模型在 GPU 上运行良好,请参阅下面的输出:nvidia-smi 命令。
$ nvidia-smi
2020 年 8 月 15 日星期六 09:51:58
+-------------------------------------------------- --------------------------------------------+
| NVIDIA-SMI 440.100 驱动程序版本:440.100 CUDA 版本:10.2 |
|-------------------------------+----------------- -----+-----------+
| GPU名称持久化-M|总线 ID Disp.A |挥发性的 Uncorr。纠错 |
| Fan Temp Perf Pwr:Usage/Cap|内存使用 | GPU-Util Compute M. |
|=================================+================= =====+========================|
| 0 GeForce RTX 2060 关闭 | 00000000:01:00.0 关闭 |不适用 |
|不适用 55C P3 33W / 不适用 | 4774MiB / 5934MiB | 97% 默认 |
+-------------------------------+------------------ -----+-----------+
+-------------------------------------------------- --------------------------------------------+
|进程:GPU 内存 |
| GPU PID 类型 进程名称 用法 |
|=================================================== =============================|
| 0 7080 C python3 4763MiB |
+-------------------------------------------------- --------------------------------------------+
$蟒蛇--版本
Python 3.8.2
$ python -c“进口火炬;打印(火炬.__version__)”
1.5.1
$ python -c“将torchvision导入为torch;打印(torch.__version__)”
0.6.1
我什至尝试过以下方法:
os.environ["CUDA_VISIBLE_DEVICES"] = '0' 火炬.保存({ “纪元”:纪元 + 1, “指标”:指标, '模型':model.state_dict(), '优化器' : optimizer.state_dict(), }, 姓名)但没有任何效果。我是深度学习的新手,还在学习 PyTorch。请原谅我的无知。
【问题讨论】:
-
用一些示例代码编辑您的帖子。
标签: deep-learning pytorch torchvision