【发布时间】:2019-04-03 15:42:03
【问题描述】:
这可能是基本的东西,但我无法理解计算梯度范数的解释。
例如,我正在使用体系结构进行二进制分割,方法是堆叠多个 U-Net,每个网络都有类似于 Resnet34 的编码器。我训练了这个网络,我得到了梯度平均值和范数如下:
conv1 的平均梯度为 -1.77767194275e-14
conv1 的标准梯度为 2.57230658463e-05
layer1 的平均梯度为 1.27381299952e-11
layer1 的标准梯度为 0.000390226632589
layer2 的平均梯度为 -2.3107595698e-11
layer2 的标准梯度为 0.000265486567514
所有值似乎都非常低。我无法得到我应该将它们视为梯度消失问题还是梯度可能非常低,具体取决于问题。
如果梯度真的很低,那么检查梯度消失问题的最佳方法是什么?
感谢您提供分析梯度数据的任何建议。提前致谢!
【问题讨论】:
标签: tensorflow conv-neural-network pytorch