RMSprop
这个算法的全称是root mean square prop.下面我们来谈一下他是如何工作的。
如图所示,你想减缓b方向的学习率,然后加速w方向的学习率。这里,所不同的是我们使用
使用微分平方的加权平均数。
另外一个不同是最后w更新学习率的时候变得不同了。
我们来解释一下这个原理。我们希望dw要比较小,这样最后w的变化就会快。同时,我们也希望db要比较大,这样最后b的变化就不会那么快。我们从batch的变化图中的确可以看出,db变化是比较大的而dw相对比较小。因为在纵轴上,也就是b方向上函数倾斜程度更大一些。
所以最后RMSprop的变化情况就如同图中绿色线条的样子,这样,我们就可以选择更大的学习率,加快学习进度。
对于更高维的空间也是一样的道理,RMSporp的作用就是让那些抖动十分剧烈的部分变得平缓一些。
另外在实际情况中为了不让分母为0,所以我们加上一个十分十分小的数,这个数具体是多少没有关系,它的作用是保证整体的稳定性。