【发布时间】:2018-02-14 04:51:58
【问题描述】:
我有兴趣使用 tensorflow slim 库 (tf.contrib.slim) 在训练期间定期评估模型在 (n)(整个)测试集上的性能。文档很清楚 slim.evaluation.evaluation_loop 是要走的路,而且看起来很有希望。问题是我没有第二个 gpu 空闲,这个模型参数占用了整个 gpu 的内存,我想做并发评估。
例如,如果我有 2 个 GPU,我可以在第一个 gpu 上运行一个以“slim.learning.train()”终止的 Python 脚本,在第一个 gpu 上运行另一个以“slim.evaluation.evaluation_loop()”终止的 Python 脚本第二个 gpu。
有没有一种方法可以为这两个任务管理 1 个 gpu 的资源?想到了 tf.train.Supervisor,但我真的不知道。
【问题讨论】:
标签: python-2.7 tensorflow tensorflow-gpu tf-slim