【发布时间】:2021-06-03 12:33:17
【问题描述】:
我正在使用 GPU 训练一个非常密集的 ML 模型,如果我开始训练模型,然后让它训练几个 epoch 并注意到我的更改并没有对损失产生显着影响,通常会发生什么情况/accuracy,我将进行编辑,重新初始化模型并从 epoch 0 重新开始训练。在这种情况下,我经常会遇到 OOM 错误。
我的猜测是,尽管我覆盖了所有模型变量,但仍有一些东西占用了内存空间。
有没有办法在 Tensorflow 1.15 中清除 GPU 的内存,这样我每次想从头开始训练时都不必不断重启内核?
【问题讨论】:
标签: python-3.x tensorflow gpu