【发布时间】:2021-08-11 03:01:13
【问题描述】:
假设我在一台机器上使用多个 GPU (0,1,2,3),后来其他人也需要在这台机器上使用 GPU。有没有办法让我减少训练中的 gpu 使用次数(即仅使用 0 和 1)而不终止训练并重新开始?我不想浪费我已经做过的培训。
这听起来像是团队中的常见需求。这可能吗?
【问题讨论】:
-
不,你不能。当您的模型在这些 GPU 上进行训练时,它们的 VRAM 会被相应的信息消耗,以便在训练期间进行处理。
标签: tensorflow pytorch huggingface-transformers