2.2.4 RMSprop - 爱码网

RMSprop

这个算法的全称是root mean square prop.下面我们来谈一下他是如何工作的。

2.2.4 RMSprop

如图所示，你想减缓b方向的学习率，然后加速w方向的学习率。这里，所不同的是我们使用

S_{d w} = β S_{d w} + (1 - β) d w^{2}

使用微分平方的加权平均数。

另外一个不同是最后w更新学习率的时候变得不同了。

我们来解释一下这个原理。我们希望dw要比较小，这样最后w的变化就会快。同时，我们也希望db要比较大，这样最后b的变化就不会那么快。我们从batch的变化图中的确可以看出，db变化是比较大的而dw相对比较小。因为在纵轴上，也就是b方向上函数倾斜程度更大一些。

所以最后RMSprop的变化情况就如同图中绿色线条的样子，这样，我们就可以选择更大的学习率，加快学习进度。

对于更高维的空间也是一样的道理，RMSporp的作用就是让那些抖动十分剧烈的部分变得平缓一些。

另外在实际情况中为了不让分母为0，所以我们加上一个十分十分小的数 $ε$ ，这个数具体是多少没有关系，它的作用是保证整体的稳定性。