下图为四层神经网络,它包括输入层,输出层,两个隐层
**函数选取不当为什会造成梯度消失

假设输入层到第一个隐层的权值为**函数选取不当为什会造成梯度消失,偏置值为**函数选取不当为什会造成梯度消失。两个隐层之间的权值为**函数选取不当为什会造成梯度消失,偏置值为**函数选取不当为什会造成梯度消失。第二个隐层到输出层的权值为**函数选取不当为什会造成梯度消失,偏置值为**函数选取不当为什会造成梯度消失。现在假设输入的值为**函数选取不当为什会造成梯度消失,输出为**函数选取不当为什会造成梯度消失,标签值为**函数选取不当为什会造成梯度消失。前一层的输出为后一层的输入则输出层输出为:

**函数选取不当为什会造成梯度消失(f为**函数)

代价函数我们使用常用的方差函数:

**函数选取不当为什会造成梯度消失

我们知道利用梯度下降法更新权值的公式为:

**函数选取不当为什会造成梯度消失

现在我们想更新**函数选取不当为什会造成梯度消失的权值,根据权值更新公式则和链式法则有:

**函数选取不当为什会造成梯度消失

假设我们的**函数为sigmoid函数,他的表达式和导函数为:

**函数选取不当为什会造成梯度消失   , **函数选取不当为什会造成梯度消失

函数图像,和导函数图像为:


**函数选取不当为什会造成梯度消失**函数选取不当为什会造成梯度消失

可知他的导函数最大值为0.25<1,我们的例子是四层神经网络,如果是很多层呢,那么多小于1的数连乘,很可能导致梯度消失。







相关文章:

  • 2021-04-08
  • 2021-11-14
  • 2021-05-17
猜你喜欢
  • 2021-04-25
  • 2021-06-03
  • 2022-12-23
  • 2021-04-12
  • 2021-08-19
  • 2021-09-14
相关资源
相似解决方案