【发布时间】:2021-01-12 17:06:19
【问题描述】:
我在使用 GPU 和 TPU 进行 google colab 训练时遇到了一个相当奇怪的问题,我使用了自定义损失,并且在 GPU 上的 tfrecord 数据集很好,但如果我切换到 TPU,则将 nan 作为验证损失。没有其他具体错误。此外,较旧的验证 tfrecord 数据集在 TPU 上运行良好。这让我觉得可能有一些特定于数据的东西。这也出现在 model.evaluate(...) 上,因为它在验证集上。
知道如何最好地使用 TPU 进行调试吗?可根据要求提供更多详细信息。
【问题讨论】:
-
我会尝试以下步骤:1) 使用随机输入/验证调用模型,2) 使用随机输入/验证拟合模型,3) 拟合简单损失函数,4) 简化自定义损失函数,直到它有效。
标签: google-colaboratory tensorflow2.0 nan tfrecord tpu