Deep learning II - II Optimization algorithms - RMSprop (Root Mean Square prop)均方根传递

相较于gradient descent with momentum，RMSprop的思想是，对于梯度震动较大的项，在下降时，减小其下降速度；对于震动幅度小的项，在下降时，加速其下降速度。
通过使用指数加权平均计算得到 $S_{d w}, S_{d b}$ ；使用他们来更新参数（如下图所示）

S_{d w} = β S_{d w} + (1 - β) d w^{2}

S_{d b} = β S_{d b} + (1 - β) d b^{2}

w := w - α \frac{d w}{\sqrt{S_{d w}} + ϵ}

b := b - α \frac{d b}{\sqrt{S_{d b}} + ϵ}