【发布时间】:2017-02-05 10:27:36
【问题描述】:
我们使用以下硬件配置使用 tensorflow 运行多个 GPU 训练:
ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory
训练代码基于 tensorflow/models github 存储库中发布的 slim。
如果我们不使用所有 GPU(最多 4 个,经过测试),我们能够运行训练代码。但是,一旦我们使用了所有 8 个 GPU,计算机就会崩溃。
这可能是什么原因?
【问题讨论】:
-
您是否有更多关于它如何崩溃以及如何重现问题的信息?
-
从现在开始不知道。因为我们没有任何日志。每次我们需要硬重启计算机。我们怀疑存在内存问题。
标签: tensorflow