【发布时间】:2017-01-13 12:27:54
【问题描述】:
我可以通过 ssh 访问由 n 个 GPU 组成的集群。 Tensorflow 自动给它们命名为 gpu:0,...,gpu:(n-1)。
其他人也可以访问,有时他们会随机使用 gpus。
我没有明确放置任何tf.device(),因为这很麻烦,即使我选择了 gpu 编号 j 并且有人已经在 gpu 编号 j 上,这也会有问题。
我想通过 gpus 的使用找到第一个未使用的并只使用这个。
我猜有人可以用 bash 解析nvidia-smi 的输出并获取一个变量 i 并将该变量 i 作为要使用的 gpu 的编号提供给 tensorflow 脚本。
我从未见过这样的例子。我想这是一个很常见的问题。最简单的方法是什么?有纯张量流吗?
【问题讨论】:
标签: tensorflow gpu distributed-system