【问题标题】:Why can Relu solve vanishing gradient?为什么 Relu 能解决梯度消失问题?
【发布时间】:2020-03-28 04:54:29
【问题描述】:

当涉及到 sigmoid 时,由于 0~1 的大量乘法,第一个边很少更新。我知道它叫做消失梯度。

但是为什么 Relu 没有问题呢?我认为relu 的第一个边缘也很少更新。

既然reluderivative不是0就是1,那么它的很多乘法不是都收敛到0吗?

【问题讨论】:

    标签: sigmoid relu


    【解决方案1】:

    在这篇论文中有一个关于这个问题的有趣讨论:http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf

    特别是,请查看第 318 页上的“潜在问题”部分。这似乎正是因为导数为 0 或 1,但绝不是“接近”零(如在 sigmoid 情况下)导致一种稀疏表示,结果证明有助于训练。

    【讨论】:

      猜你喜欢
      • 2020-09-17
      • 2017-03-30
      • 2013-02-03
      • 1970-01-01
      • 2022-07-27
      • 1970-01-01
      • 2021-09-01
      • 1970-01-01
      • 2015-07-14
      相关资源
      最近更新 更多