在多个 GPU 上训练 tensorflow 会使计算机崩溃答案

【问题标题】：Training tensorflow on multiple GPU crashes the computer在多个 GPU 上训练 tensorflow 会使计算机崩溃
【发布时间】：2017-02-05 10:27:36
【问题描述】：

我们使用以下硬件配置使用 tensorflow 运行多个 GPU 训练：

ubuntu 16.04
cuda 8
cudnn 5.1
8 titan X pascal
220GB of memory

训练代码基于 tensorflow/models github 存储库中发布的 slim。

如果我们不使用所有 GPU（最多 4 个，经过测试），我们能够运行训练代码。但是，一旦我们使用了所有 8 个 GPU，计算机就会崩溃。

这可能是什么原因？

【问题讨论】：

【解决方案1】：

我遇到了类似的问题，但对我来说，只要我使用多个 GPU，它就会崩溃。对我们来说，解决方法是将 Linux 内核降级到 2.6.32

【讨论】：