【发布时间】:2020-10-27 04:10:27
【问题描述】:
谁能帮我解释一下Pytorch中这个常见问题的含义?
型号:EfficientDet-D4
GPU:RTX 2080Ti
批量大小:2
CUDA out of memory. Tried to allocate 14.00 MiB (GPU 0; 11.00 GiB total capacity; 8.32 GiB already allocated; 2.59 MiB free; 8.37 GiB reserved in total by PyTorch)
无论如何,我认为模型和GPU在这里并不重要,我知道解决方案应该是减少批量大小,尝试在验证时关闭渐变等。但我只想知道@987654322是什么意思@虽然我有11 GiB但不能分配14.00 MiB更多?
另外:我尝试在批量大小 = 1 的训练时观看 nvidia-smi,我的 GPU 中使用了 9.5 GiB。
【问题讨论】:
-
你能检查一下正在使用你的 GPU 内存的进程吗?是否有之前的ghost进程已经占用了GPU设备的内存?
-
我重新启动内核,每次尝试后都杀死所有进程,所以我确定那里没有任何东西(甚至尝试重新启动我的计算机)
-
您可以通过
nvidia-smi查看GPU使用情况 -
@Tomer,我知道,但它刚刚升到 10GiB,然后在 bug 出现后全部释放,我将编辑问题
-
试试
torch.cuda.empty_cache(),告诉我们进展如何。
标签: python machine-learning deep-learning pytorch out-of-memory