简介
梯度下降法中,使用最广泛的应该是随机梯度下降法(SGD),之前不了解,所以没有用过其他的方法,今天想巩固原理的时候看到一些博主的介绍,觉得非常详细,归纳如下。
摘自:知乎【什么是梯度下降法】
有关梯度下降法的一些博客:
1. 直观理解
如何求f(x) = x^2 的极小值?
按照它们单调性来分主要有二种情况:x<0时单调下降,此时倒数为负,增大x函数值下降;x>0时单调上升,此时倒数为正,减小x函数值下降。
因此,求极小值的梯度下降法为:
同理,极大值的求法为:
2. 各种算法
- 随机梯度下降法
- 使用动量的随机梯度下降法
- AdaGrad算法
- RMSProp算法