【发布时间】:2020-06-11 04:30:55
【问题描述】:
在 tensorflow 1.15、python3.7 上进行培训。 我目前正在自定义数据集上训练 stylegan2,该数据集包含 30000 张图像,每张 256 x 256。由于 style gan 创建了不同的 tf 记录文件,每个存储数据集的大小为 2^x。第 8 条 tf 记录(存储 256x256 图像)为 5Gb,仅用于上下文,其余的都非常小(都小于 1gb)。 我当前的设置是 P100、16 gigs VRam、32 GB ram 和丰富的存储空间。我也是 2vCpus(在 gcp 上训练)。
如上所述,我遇到了这个错误。最初我的内存是 13 gg,在多次看到确切的错误后,我反复将内存增加到 32 gb。
任何和所有“指针”都会有所帮助(注意指针上的双关语哈哈)
【问题讨论】:
-
看来您的进程实际上占用的内存比您预期的要多得多。如果没有看到实际代码,任何人都很难提供帮助。请在您的问题中加入minimal reproducible example。
-
我没有对stylegan2官方代码github.com/NVlabs/stylegan2做任何改动。
标签: python tensorflow