【发布时间】:2021-08-18 12:11:04
【问题描述】:
我是 pytorch_lightning 的新手,我的训练进展顺利,但由于某些原因,training_epoch_end 在一些步骤后被调用,而不是在 epoch 结束时调用。
这些是我的输出:
GPU 可用:False,已使用:False
TPU 可用:无,使用:0 个 TPU 核心
验证完整性检查:0%| | 0/2 [00:00, ?it/s]
|姓名 |类型 |参数
纪元 0:0%| | 0/13 [00:00, ?it/s]
纪元 0:23%|██▎ | 3/13 [01:38
//training_epoch_end: outputs = [{'loss': tensor(6.4593)}, {'loss': tensor(5.7653)}, {'loss': tensor(1.9642)}]
验证:0it [00:00, ?it/s]
验证:0%| | 0/10 [00:00, ?it/s]
纪元 0:38%|███▊ | 5/13 [01:48
纪元 0:46%|████▌ | 6/13 [01:59
第 0 纪元:54%|█████▍ | 7/13 [02:10
第 0 纪元:62%|██████▏ | 8/13 [02:20
纪元 0:69%|██████▉ | 9/13 [02:31
第 0 纪元:77%|███████▋ | 10/13 [02:42
第 0 纪元:85%|████████▍ | 11/13 [02:52
第 0 纪元:92%|█████████▏| 12/13 [03:04
纪元 0:100%|██████████| 13/13 [03:15
纪元 0:100%|██████████| 13/13 [03:16
第 1 纪元:23%|██▎ | 3/13 [01:42
//training_epoch_end: outputs = [{'loss': tensor(2.6766)}, {'loss': tensor(2.3010)}, {'loss': tensor(1.1722)}]
第 1 纪元:31%|███ | 4/13 [01:48
验证:0it [00:00, ?it/s]
第 1 纪元:38%|███▊ | 5/13 [02:02
已完成 6.8 MiB/327.9 MiB (48.7 KiB/s),剩余 2 个文件
第 1 纪元:100%|██████████| 13/13 [03:48
第二纪元:23%|██▎ | 3/13 [01:44
//training_epoch_end: outputs = [{'loss': tensor(1.2504)}, {'loss': tensor(1.4905)}, {'loss': tensor(1.4158)}]
第 2 纪元:31%|███ | 4/13 [01:49
验证:0it [00:00, ?it/s]
第二纪元:100%|██████████| 13/13 [03:50
第三纪元:23%|██▎ | 3/13 [01:43
training_epoch_end: 3 个输出 = [{'loss': tensor(0.6632)}, {'loss': tensor(0.9215)}, {'loss': tensor(1.1396)}]
第三纪元:31%|███ | 4/13 [01:49
验证:0it [00:00, ?it/s]
有人知道为什么会这样吗?
worker 或 GPU 的数量不会影响订单。
谢谢!!!
【问题讨论】: