【问题标题】:ChainerCV SSD512 MODEL not trainingChainerCV SSD512 模型未训练
【发布时间】:2019-03-18 07:49:49
【问题描述】:

我已经使用SSD300(imagenet pre-trained model)进行了两类分类的检测和识别:[Basketball-ChainerCV] (https://github.com/atom2k17/Basketball-ChainerCV/blob/master/basketballproject.py)。训练和预测都很好。但是当我在训练时使用 SSD512(imagenet pre-trained model) 时,出现以下错误:

/usr/local/lib/python3.6/dist- 
packages/chainer/functions/connection/convolution_2d.py in 
_forward_cudnn(self, x, W, b, y)
226         cuda.cudnn.convolution_forward(
227             x, W, b, y, pad, stride, dilation, self.groups,
228             auto_tune=auto_tune, tensor_core=tensor_core)
229         return y,
230 
cupy/cudnn.pyx in cupy.cudnn.convolution_forward()
cupy/cudnn.pyx in cupy.cudnn._find_algorithm_fwd()
cupy/cuda/memory.pyx in cupy.cuda.memory.alloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.MemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.MemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.SingleDeviceMemoryPool.malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory.SingleDeviceMemoryPool._malloc()
cupy/cuda/memory.pyx in cupy.cuda.memory._try_malloc()
OutOfMemoryError: out of memory to allocate 1073741824 bytes (total 
12092240384 bytes)

我正在使用 Google Colab GPU 环境。任何解决此问题的指针表示赞赏。

【问题讨论】:

  • 这是内存不足错误,您是否尝试减小批量大小或减小输入图像大小??
  • 嗨@corochann ..我已经将批量大小从32减少到4。我的图像大小是-320 * 240 ..但是在训练时它显示损失为nan,验证为0。还是内存问题吗?
  • 不,这是其他问题。我想原来的问题已经解决了。当训练损失为 nan 时,请检查输入是否包含 nan 值并且输入范围是否正确缩放。

标签: python-3.x object-detection chainercv


【解决方案1】:

正如@corochann 在 cmets 中所建议的,当执行 trainer.run() 将 batch_size 从 32 取为 4 时,这个内存问题得到了解决。因此这里的解决方案是采用较小的 batch_size。

【讨论】:

    猜你喜欢
    • 2017-08-19
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-03-29
    • 2013-05-05
    • 1970-01-01
    • 1970-01-01
    • 2021-02-19
    相关资源
    最近更新 更多