梯度

初始化的影响

梯度与**函数
同样的网络,同样的参数,初始化不同,梯度下降的速度不同,得到最小值也不同,如上图。

学习率的影响

梯度与**函数学习率影响收敛的速度,初始情况下可以设置的大一些,不收敛在设置的小一些。

动量

梯度与**函数
梯度下降的时候,可能到达局部最优的情况,这时候给一个动量,用惯性冲出局部最优的情况。

常见公式求解梯度

梯度与**函数
梯度与**函数
梯度与**函数
梯度与**函数

**函数

derivative

梯度与**函数
特点:在z=0z = 0处不可导

Sigmoid Logistic

梯度与**函数特点:将zz((- \infty,), \infty)拉回到(0,1)(0,1),且可导
梯度与**函数
ww求导结果也一样。

Tanh

梯度与**函数

梯度与**函数

RELU

梯度与**函数
神经网络中常用,原因在于z<0,z<0,梯度为0, z>0z>0,梯度为1,这样传递的时候梯度变化不大,得到了比较好的保留。

Softmax

梯度与**函数
用于分类,且保证所有概率相加为1,而使用sigmod相加最大为3

另一个作用是金字塔作用,2/1=3,0.7/0.2=3.5;将差距拉的更大,将小的压缩到更小。
梯度与**函数
梯度与**函数
总结
梯度与**函数pytorch实现
梯度与**函数

相关文章: