【发布时间】:2018-04-27 03:33:57
【问题描述】:
我正在使用我的 GPU (Tesla K80) 使用 tensorflow 训练神经网络,但出现了问题。当我输入nvidia-smi 时,我看到11239MiB / 11439MiB 正在使用内存,但没有为GPU 列出任何进程。
通常,当这种情况发生时,我可以键入ps aux | grep python 并找到正在耗尽 GPU 的进程,但这次什么都没有出现。
如何确定我的 GPU 上正在运行什么,以及如何终止它?
【问题讨论】:
-
我不知道这在您的机器上是否可行,但在我们的服务器上,如果 nvidia-smi 行为异常,是时候重新启动了。更新是 nvidia-smi 显示奇怪信息的常见原因,例如没有显卡或没有进程或类似的东西。
-
重启确实解决了这个问题,但我希望有一个更优雅、干扰更少的解决方案。
标签: tensorflow cuda deep-learning gpu tensorflow-gpu