右饱和:
当x趋向于正无穷时,函数的导数趋近于0,此时称为右饱和。
左饱和:
当x趋向于负无穷时,函数的导数趋近于0,此时称为左饱和。
饱和函数和非饱和函数:
当一个函数既满足右饱和,又满足左饱和,则称为饱和函数,否则称为非饱和函数。
常用的饱和**函数和非饱和**函数:
饱和**函数有如Sigmoid和tanh,非饱和**函数有ReLU;相较于饱和**函数,非饱和**函数可以解决“梯度消失”的问题,加快收敛。
下面我们进行分析:
Sgimoid函数:
sigmoid(x)=11+exsigmoid(x)=\frac{1}{1+e^{-x}},其导数为sigmoid(x)=ex(1+ex)2sigmoid(x)=\frac{e^{-x}}{(1+e^{-x})^2},图像如下:
饱和和非饱和**函数
可以看出sigmoid的导数最大值为0.25,在进行反向传播时,各层的梯度(均小于0.25)相乘很容易造成梯度为0,也就是“梯度消失”。
tanh函数:
tanh(x)=exexex+extanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}},其导数为4e2x(e2x+1)2\frac{4e^{2x}}{(e^{2x}+1)^2},图像如下:
饱和和非饱和**函数
可以看出,相较于Sigmoid函数有所改善,但导数仍小于1,不能避免梯度消失的情况。
ReLU函数:
该函数与其导函数的图像如下
饱和和非饱和**函数
饱和和非饱和**函数
可以看出ReLu的导函数在正数部分为1,不会造成梯度消失和梯度爆炸。但反向传播时一旦学习率没有设置好,使得某个神经元的ReLu 输入为负数,则会导致该神经元不再更新,这就是神经元死亡的现象,ReLu有一些变体对该问题进行了处理。

本文参照:https://blog.csdn.net/qq_42422981/article/details/89561955,该文中对sigmoig、tanh、ReLu及其变种进行了讲解,大家可以参考一下。

相关文章: