【问题标题】:Training tensorflow on multiple GPU crashes the computer在多个 GPU 上训练 tensorflow 会使计算机崩溃
【发布时间】:2017-02-05 10:27:36
【问题描述】:

我们使用以下硬件配置使用 tensorflow 运行多个 GPU 训练:

ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory

训练代码基于 tensorflow/models github 存储库中发布的 slim。

如果我们不使用所有 GPU(最多 4 个,经过测试),我们能够运行训练代码。但是,一旦我们使用了所有 8 个 GPU,计算机就会崩溃。

这可能是什么原因?

【问题讨论】:

  • 您是否有更多关于它如何崩溃以及如何重现问题的信息?
  • 从现在开始不知道。因为我们没有任何日志。每次我们需要硬重启计算机。我们怀疑存在内存问题。

标签: tensorflow


【解决方案1】:

我遇到了类似的问题,但对我来说,只要我使用多个 GPU,它就会崩溃。对我们来说,解决方法是将 Linux 内核降级到 2.6.32

这里有更多关于我们问题的详细信息:https://groups.google.com/a/tensorflow.org/forum/#!topic/discuss/UjB7uP7_MMU

【讨论】:

  • 奇怪的是,我们必须更改内核版本才能使其工作。也许,他们用最新版本解决了问题。
猜你喜欢
  • 2017-08-17
  • 1970-01-01
  • 2017-09-10
  • 1970-01-01
  • 1970-01-01
  • 2017-03-30
  • 1970-01-01
  • 2020-11-28
  • 2017-04-23
相关资源
最近更新 更多