**函数选取不当为什会造成梯度消失

下图为四层神经网络，它包括输入层，输出层，两个隐层

假设输入层到第一个隐层的权值为 **函数选取不当为什会造成梯度消失，偏置值为。两个隐层之间的权值为，偏置值为。第二个隐层到输出层的权值为，偏置值为。现在假设输入的值为，输出为，标签值为。前一层的输出为后一层的输入则输出层输出为：

**函数选取不当为什会造成梯度消失 (f为**函数)

代价函数我们使用常用的方差函数：

**函数选取不当为什会造成梯度消失

我们知道利用梯度下降法更新权值的公式为：

**函数选取不当为什会造成梯度消失

现在我们想更新 **函数选取不当为什会造成梯度消失的权值，根据权值更新公式则和链式法则有：

**函数选取不当为什会造成梯度消失

假设我们的**函数为sigmoid函数,他的表达式和导函数为：

**函数选取不当为什会造成梯度消失 ,

函数图像，和导函数图像为：

**函数选取不当为什会造成梯度消失

可知他的导函数最大值为0.25<1,我们的例子是四层神经网络，如果是很多层呢，那么多小于1的数连乘，很可能导致梯度消失。