【问题标题】:PytorchLightning calls training_epoch_end before all steps of epoch were completed. always at about 0.25 size of stepsPytorchLightning 在 epoch 的所有步骤完成之前调用 training_epoch_end。总是大约 0.25 步长
【发布时间】:2021-08-18 12:11:04
【问题描述】:

我是 pytorch_lightning 的新手,我的训练进展顺利,但由于某些原因,training_epoch_end 在一些步骤后被调用,而不是在 epoch 结束时调用。

这些是我的输出:

GPU 可用:False,已使用:False

TPU 可用:无,使用:0 个 TPU 核心

验证完整性检查:0%| | 0/2 [00:00, ?it/s]

|姓名 |类型 |参数



纪元 0:0%| | 0/13 [00:00, ?it/s]

纪元 0:23%|██▎ | 3/13 [01:38

//training_epoch_end: outputs = [{'loss': tensor(6.4593)}, {'loss': tensor(5.7653)}, {'loss': tensor(1.9642)}]

验证:0it [00:00, ?it/s]

验证:0%| | 0/10 [00:00, ?it/s]

纪元 0:38%|███▊ | 5/13 [01:48

纪元 0:46%|████▌ | 6/13 [01:59

第 0 纪元:54%|█████▍ | 7/13 [02:10

第 0 纪元:62%|██████▏ | 8/13 [02:20

纪元 0:69%|██████▉ | 9/13 [02:31

第 0 纪元:77%|███████▋ | 10/13 [02:42

第 0 纪元:85%|████████▍ | 11/13 [02:52

第 0 纪元:92%|█████████▏| 12/13 [03:04

纪元 0:100%|██████████| 13/13 [03:15

纪元 0:100%|██████████| 13/13 [03:16

第 1 纪元:23%|██▎ | 3/13 [01:42

//training_epoch_end: outputs = [{'loss': tensor(2.6766)}, {'loss': tensor(2.3010)}, {'loss': tensor(1.1722)}]

第 1 纪元:31%|███ | 4/13 [01:48

验证:0it [00:00, ?it/s]

第 1 纪元:38%|███▊ | 5/13 [02:02

已完成 6.8 MiB/327.9 MiB (48.7 KiB/s),剩余 2 个文件

第 1 纪元:100%|██████████| 13/13 [03:48

第二纪元:23%|██▎ | 3/13 [01:44

//training_epoch_end: outputs = [{'loss': tensor(1.2504)}, {'loss': tensor(1.4905)}, {'loss': tensor(1.4158)}]

第 2 纪元:31%|███ | 4/13 [01:49

验证:0it [00:00, ?it/s]

第二纪元:100%|██████████| 13/13 [03:50

第三纪元:23%|██▎ | 3/13 [01:43

training_epoch_end: 3 个输出 = [{'loss': tensor(0.6632)}, {'loss': tensor(0.9215)}, {'loss': tensor(1.1396)}]

第三纪元:31%|███ | 4/13 [01:49

验证:0it [00:00, ?it/s]

有人知道为什么会这样吗?

worker 或 GPU 的数量不会影响订单。

谢谢!!!

【问题讨论】:

    标签: pytorch-lightning


    【解决方案1】:

    好吧,这完全是我的错!

    我对 0..13 纪元的打印输出感到困惑,不明白其中只有三个在训练,其余的在验证。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2013-12-10
      • 2019-05-28
      • 2019-10-17
      • 1970-01-01
      • 1970-01-01
      • 2018-05-20
      相关资源
      最近更新 更多