【发布时间】:2020-10-04 21:38:12
【问题描述】:
我正在使用批处理 szie 256 训练的 resnet34 会导致 OOM。但是我正在使用的机器有 8 个 Titan GPU 和 12G GPU 内存,我注意到当 OOM 发生时还有 7 个 GPU 空闲。
我想知道为什么会发生这种情况。当第一个 GPU 内存不足时,tensorflow 不能使用其他并行 GPU 吗?如何解决?
…………………………………………更新…………………………………… 实际上我确实通过编码“os.environment”将所有gpus设置为可用,我还有什么遗漏或者有什么问题吗?
【问题讨论】:
-
您需要显式编写 tf GPU 代码来执行此操作,它不会直接。
标签: tensorflow resnet