经常听到梯度下降法,只知道它是用于优化求解问题。即 沿着梯度的反方向(坡度最陡的方向)进行权值更新。为什么局部梯度下降最快的方向就是梯度的负方向呢?

梯度

梯度就是表示某一个函数在当前位置的导数。梯度下降法 Gradient descent 梯度下降法 Gradient descent为自变量,梯度下降法 Gradient descent为关于梯度下降法 Gradient descent的函数;梯度下降法 Gradient descent 为梯度

如果函数梯度下降法 Gradient descent为凸函数,那么就可以根据梯度下降算法进行优化,求得使梯度下降法 Gradient descent最小的参数梯度下降法 Gradient descent

梯度下降法 Gradient descent

梯度下降法 Gradient descent 为当前下山的位置,梯度下降法 Gradient descent为下山移动一小步之后的位置,梯度下降法 Gradient descent为学习因子,即步长。

梯度更新公式的推导——一阶泰勒展开式

一阶泰勒展开式的基本形式为:梯度下降法 Gradient descent

这个公式主要利用的是函数的局部线性近似,图解:

梯度下降法 Gradient descent

 

用红色的直线代替黑色曲线,求出梯度下降法 Gradient descent 的值,即梯度下降法 Gradient descent梯度下降法 Gradient descent 可以看作斜率

梯度下降法 Gradient descent 是微小矢量,它的大小为步长,但它是有方向的矢量,将梯度下降法 Gradient descent的单位向量记作 v;那么梯度下降法 Gradient descent,则

梯度下降法 Gradient descent

由于局部下降的目的是希望每次更新梯度下降法 Gradient descent的值,都能使梯度下降法 Gradient descent变小,所以:

梯度下降法 Gradient descent

步长梯度下降法 Gradient descent为标量且一般设置为正数,所以不等式变为:

梯度下降法 Gradient descent

v和梯度下降法 Gradient descent都为向量,向量乘积有几种情况:

梯度下降法 Gradient descent

要使他们的向量乘积小于0,且使得乘积最小,只要cos(α) = -1,即A,B完全反向。也就是说,变量梯度下降法 Gradient descent的方向v应该为:

梯度下降法 Gradient descent

所以

梯度下降法 Gradient descent

因为梯度下降法 Gradient descent为标量,可以和步长合并,所以最终,变量梯度下降法 Gradient descent的更新公式为:

梯度下降法 Gradient descent

 

参考:http://www.360doc.com/content/18/0526/06/36490684_757087825.shtml 感谢

相关文章: