【问题标题】:Explain CUDA out of memory in Pytorch在 Pytorch 中解释 CUDA 内存不足
【发布时间】:2020-10-27 04:10:27
【问题描述】:

谁能帮我解释一下Pytorch中这个常见问题的含义?

型号:EfficientDet-D4

GPU:RTX 2080Ti

批量大小:2

CUDA out of memory. Tried to allocate 14.00 MiB (GPU 0; 11.00 GiB total capacity; 8.32 GiB already allocated; 2.59 MiB free; 8.37 GiB reserved in total by PyTorch)

无论如何,我认为模型和GPU在这里并不重要,我知道解决方案应该是减少批量大小,尝试在验证时关闭渐变等。但我只想知道@987654322是什么意思@虽然我有11 GiB但不能分配14.00 MiB更多?

另外:我尝试在批量大小 = 1 的训练时观看 nvidia-smi,我的 GPU 中使用了 9.5 GiB

【问题讨论】:

  • 你能检查一下正在使用你的 GPU 内存的进程吗?是否有之前的ghost进程已经占用了GPU设备的内存?
  • 我重新启动内核,每次尝试后都杀死所有进程,所以我确定那里没有任何东西(甚至尝试重新启动我的计算机)
  • 您可以通过nvidia-smi查看GPU使用情况
  • @Tomer,我知道,但它刚刚升到 10GiB,然后在 bug 出现后全部释放,我将编辑问题
  • 试试torch.cuda.empty_cache(),告诉我们进展如何。

标签: python machine-learning deep-learning pytorch out-of-memory


【解决方案1】:

我从 Pytorch 社区的@ptrblck 那里得到了答案。在那里,我比这个问题更详细地描述了我的问题。

请在here查看答案。

【讨论】:

    猜你喜欢
    • 2021-12-16
    • 1970-01-01
    • 2020-03-21
    • 2021-06-12
    • 2020-03-26
    • 2020-07-28
    • 2021-12-03
    • 2023-02-09
    • 1970-01-01
    相关资源
    最近更新 更多