sigmoid梯度消失现象解释
解释:
大部分情况下初始化W参数时,基本都是小于 1 的,二 sigmoid函数的导函数如图所示,求导的最大值为0.25,神经网络结构中每一层都有**函数,这样在反向传播求导时,每一层都会乘以一个sigmoid的导函数值,最大为0.25,当神经网络层数太多时,也就是乘以多个0.25时,值就会特别的小,就会出现梯度消失的现象。

相关文章:

  • 2021-12-12
  • 2022-12-23
  • 2021-11-14
  • 2021-05-17
  • 2021-12-23
猜你喜欢
  • 2021-04-25
  • 2022-01-18
  • 2021-10-13
  • 2021-04-08
相关资源
相似解决方案