RMSprop


  • 相较于gradient descent with momentum,RMSprop的思想是,对于梯度震动较大的项,在下降时,减小其下降速度;对于震动幅度小的项,在下降时,加速其下降速度。
  • 通过使用指数加权平均计算得到Sdw, Sdb;使用他们来更新参数(如下图所示)
    Deep learning II - II Optimization algorithms - RMSprop (Root Mean Square prop)均方根传递

Sdw=βSdw+(1β)dw2

Sdb=βSdb+(1β)db2

w:=wαdwSdw+ϵ

b:=bαdbSdb+ϵ

  • ϵ=108,是为了保证分母不为零;dw2db2指的是element-wise

相关文章: