为什么 Relu 能解决梯度消失问题？

【问题标题】：Why can Relu solve vanishing gradient?为什么 Relu 能解决梯度消失问题？
【发布时间】：2020-03-28 04:54:29
【问题描述】：

当涉及到 sigmoid 时，由于 0~1 的大量乘法，第一个边很少更新。我知道它叫做消失梯度。

但是为什么 Relu 没有问题呢？我认为relu 的第一个边缘也很少更新。

既然relu的derivative不是0就是1，那么它的很多乘法不是都收敛到0吗？

【问题讨论】：

【解决方案1】：

在这篇论文中有一个关于这个问题的有趣讨论：http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

特别是，请查看第 318 页上的“潜在问题”部分。这似乎正是因为导数为 0 或 1，但绝不是“接近”零（如在 sigmoid 情况下）导致一种稀疏表示，结果证明有助于训练。

【讨论】：