【发布时间】:2021-02-04 07:06:18
【问题描述】:
我在 4x RTX 3090 上运行使用 TensorFlow 1.x 编写的模型,开始训练比在 1x RTX 3090 上花费的时间要长。尽管随着训练的开始,它在 4x 中比在 1x 中更早完成。我在两个 GPU 中都使用 CUDA 11.1 和 TensorFlow 1.14。
其次,当我使用 1x RTX 2080ti、CUDA 10.2 和 TensorFlow 1.14 时,与 1x RTX 3090、11.1 CUDA 和 TensorFlow 1.14 相比,开始训练所需的时间更少。暂定,1x RTX 2080ti 需要 5 分钟,1x RTX 3090 需要 30-35 分钟,4x RTX 3090 需要 1.5 小时开始训练其中一个数据集。
如果有人能帮我解决这个问题,我将不胜感激。
我在 2080ti 和 3090 机器上使用 Ubuntu 16.04、Core™ i9-10980XE CPU 和 32 GB 内存。
编辑:根据to this,我发现 TF 在 Ampere 架构 GPU 中的启动时间很长,但我仍然不清楚是否是这种情况;并且,如果是这种情况,是否存在任何解决方案?
【问题讨论】:
-
谣言是 nvidia labs 正在放弃 tensorflow 代替 pytorch - github.com/NVlabs/stylegan2-ada/issues/32
标签: tensorflow nvidia stylegan