RMSprop梯度下降法

有点类似动量梯度下降法,其过程为:

我们在神经网络中,算出了dw,dbdw,db,然后令:

Sdw:=βSdw+(1β)dw2Sdb:=βSdb+(1β)db2  w:=wαdwSdw+108b:=bαdbSdb+108Sdw:=\beta Sdw+(1-\beta)dw^2\\ Sdb:=\beta Sdb+(1-\beta)db^2\\ \;\\ w:=w-\alpha\cdot \frac{dw}{\sqrt{Sdw}+10^{-8}}\\ b:=b-\alpha\cdot \frac{db}{\sqrt{Sdb}+10^{-8}}

还是那张图:
RMSprop梯度下降法

理解

对于一个变化较大的方向(上图中的垂直方向),其dw2dw^2会很大,所以除上Sdw\sqrt{Sdw}很变得很小,所以可以做到减缓其变化。

而较小的方向,其dw2dw^2会很小,所以除上Sdw\sqrt{Sdw}很变得很大,所以可以做到加速变化。

分母加上一个较小的数是为了避免除一个极小的数的问题。

与momentum梯度下降法

RMSprop梯度下降法是用除上变化幅度来完成的降幅或增幅,而momentum梯度下降法是通过求平均的方式消除不正确的方向上的波动,增进正确方向的速度。

相关文章:

  • 2021-11-29
  • 2022-12-23
  • 2021-07-24
  • 2021-11-27
猜你喜欢
  • 2021-06-25
  • 2021-09-16
  • 2022-12-23
  • 2021-06-26
  • 2021-08-07
  • 2021-12-01
相关资源
相似解决方案