指数加权平均|吴恩达深度学习专项课程第二课第二周

指数加权平均的公式很简单，下面几行就可以表示：
$v_0=0;$
$v_1=βv_0+\left(1-β \right)θ_1;$
$v_2=βv_1+\left(1-β \right)θ_2;$
$……;$
$v_n=βv_{\left(n-1 \right)}+\left(1-β \right)θ_n;$
其中 $v_n$ 是我们计算得到的估计值，而 $θ_n$ 是我们样本数据中的实际值， $β$ 是一个加权参数，介于0、1之间，在实际使用时常取0.9
所谓指数加权平均用于对一串数据取平均值，而这个平均值并不是简单的 $\frac{v_0+v_1+……+v_n}{n+1}$ ,而是对每个 $v_n$ 加上不同的权重，形如指数形式，再取均值，就是所谓的指数加权平均。
举个例子，当 $β=0.9$ 时：
$v_0=0;$
$v_1=0.9v_0+0.1 θ_1;$
$v_2=0.9v_1+0.1θ_2;$
$……;$
$v_n=0.9v_{\left(n-1 \right)}+0.1θ_n;$
这时可能会出现下面的疑惑：
明明是要求平均，为什么实际值 $θ_n$ 只占0.1，而另一个不知道什么数却占了0.9，难道估算估计值是当前时刻的实际值 $θ_n$ 不应该占比较大吗？
其实并不能这样理解，只要将上面的式子逐个带入下面的式子，注意的是，所有的 $θ_n$ 都是已知项，可以得到：
$v_0=0;$
$v_1=0.1 θ_1;$
$v_2=0.9*0.1θ_1+0.1θ_2;$
$v_3={\left(0.9 \right)}^2*0.1θ_1+0.9*0.1θ_2+0.1θ_3;$
$v_4={\left(0.9 \right)}^3*0.1θ_1+{\left(0.9 \right)}^2*0.1θ_2+0.9*0.1θ_3+0.1θ_4;$
$……;$
这样可以很明显的看出规律来，其实：
$v_n={\left(0.9 \right)}^{n-1}*0.1θ_1+{\left(0.9 \right)}^{n-2}*0.1θ_2+……+0.1θ_n;$
所以我们计算出来的 $v_n$ 实际上是包含了以前所有的结果的。对于 $v_{20}$ ，各参数的数值如下图：
指数加权平均|吴恩达深度学习专项课程第二课第二周就是说 $v_{20}=0.0122θ_1+0.0135θ_2+……+0.09θ_{19}+0.1θ_{20}$ 图标上的各数值就是加在各个 $θ_n$ 上的权重，可以看到加在 $θ_20$ 上的权重最大，也就是计算出来的估计值 $v_{20}$ 中实际值 $θ_{20}$ 的占比最大。
那么如果说 $θ_{20}$ 是对20个数据的估计，那么 $θ_n$ 就是对 $n$ 个数据的估计吗？
是可以这么认为的，但是其实当 $n$ 很大时，前面的 $θ_1$ 、 $θ_2$ 等起的作用就很小了，就对 $v_{20}$ 来说， $θ_20$ 上的权重几乎是 $θ_1$ 上的9倍，这是我们如果忽略 $θ_1$ 其实对结果也没有太大的影响，所以我们进一步规定，如果权重低于 $θ_n$ 的 $\frac{1}{e}$ ,那么我们就认为该数值在平均中起很小的作用。这样，上图我们可以将 $v_{20}$ 看做是红线以上的10个数据的指数加权平均，就是说 $β=0.9$ 时，指数加权平均考虑了估计点附近的10个数据。（这个结论对于 $β=0.9$ 是恒成立的，因为解 ${\left(0.9 \right)}^{n-1}*0.1>0.1*\frac{1}{e}$ 可得 $n>10.49≈10$ ）
那么对于 $β=0.98$ 可以看做是多少个数据的平均呢？根据公式 $\frac{1}{1-β}=\frac{1}{1-0.98}=50$ 可以很明显的看出，此时是前面50个数据的平均。也就是说 $β$ 越大，当前的实际值在后面的估计值中占比越少，同样，指数加权平均也可以让数据保持相对的稳定。
搞懂了指数加权平均，后面的Adam、Momentum算法也就更加容易理解了。