RMSprop梯度下降法

有点类似动量梯度下降法，其过程为：

我们在神经网络中，算出了 $dw,db$ ，然后令：

$Sdw:=\beta Sdw+(1-\beta)dw^2\\ Sdb:=\beta Sdb+(1-\beta)db^2\\ \;\\ w:=w-\alpha\cdot \frac{dw}{\sqrt{Sdw}+10^{-8}}\\ b:=b-\alpha\cdot \frac{db}{\sqrt{Sdb}+10^{-8}}$

还是那张图：
RMSprop梯度下降法

理解

对于一个变化较大的方向（上图中的垂直方向），其 $dw^2$ 会很大，所以除上 $\sqrt{Sdw}$ 很变得很小，所以可以做到减缓其变化。

而较小的方向，其 $dw^2$ 会很小，所以除上 $\sqrt{Sdw}$ 很变得很大，所以可以做到加速变化。

分母加上一个较小的数是为了避免除一个极小的数的问题。

与momentum梯度下降法

RMSprop梯度下降法是用除上变化幅度来完成的降幅或增幅，而momentum梯度下降法是通过求平均的方式消除不正确的方向上的波动，增进正确方向的速度。