指数加权平均

下面介绍一下比梯度下降更快的算法,不过在这之前,你要了解指数加全平均。

2.2.2 指数加权平均

2.2.2 指数加权平均

如1和2所示,指数加权实际上就是设置一个权值。就像下图所示

2.2.2 指数加权平均

2.2.2 指数加权平均

通过

11β

来计算是平均的多少天。

理解指数加权平均

如下图所示

2.2.2 指数加权平均

我们要算第100天的平均温度可以写成图中下面0.9的指数形式。由上图是每天的实际温度,下面是0.1通过指数衰减过后的函数值。对于v_100而言,这些所有的系数相加和近似为1,我们称这个为偏差修正

那么一般情况下我们到底平均多少天的气温就可以了呢?

可以看到0.9的10次方差不多等于1/e,此时权重差不多下降到整体权重的三分之一,我们有公式

βn=11β

这个n值差不多就是我们想要的了。

最后我们来讲一下实际如何执行。

2.2.2 指数加权平均

算法如上图所示的右侧。这实际上是一个递归的过程。如右下图所示,就是一个不断更新

v=βv+(1β)θ

的过程。

指数加权平均的偏差修正

偏差修正可以让指数加权平均算的更为准确一些,下面介绍一下是如何做的。

2.2.2 指数加权平均

如图左侧所示,按照我们指数加权平均公式,V0等于0,所以V1的预测值会比V1的实际值要低上不少。因为θ2所占的比重也很低,计算出来的V2预测值比实际值底。那么有没有什么好的解决办法呢?让估值初期的值与实际值更接近一些。

方法就是如图右侧所示,我们更新公式,给分母加一个权重

Vt1βt

我们可以发现,随着t的不断增加,分母会越来越接近于1,这样就保证了加权平均并且除去了偏差。当t不断增加的时候,修正偏差几乎没有作用。

吴教主深度学习和神经网络课程总纲

相关文章: