大纲

上节课我们主要开始介绍Aggregation Models,目的是将不同的hypothesis得到的gt集合起来,利用集体智慧得到更好的预测模型G。首先我们介绍了Blending,Blending是将已存在的所有gt结合起来,可以是uniformly,linearly,或者non-linearly组合形式。然后,我们讨论了在没有那么多gt的情况下,使用bootstrap方式,从已有数据集中得到新的类似的数据集,从而得到不同的gt。这种做法称为bagging。本节课将继续从这些概念出发,介绍一种新的演算法。
Motivation of Boosting
首先举了一个老师带学生们识别苹果的例子,最后经过老师和学生的共同努力,得到了更好的苹果定义,从而更好的识别苹果

上个苹果的例子中,不同的学生代表不同的hypotheses gt;最终得到的苹果总体定义就代表hypothesis G;而老师就代表演算法A,指导学生的注意力集中到关键的例子中(错误样本),从而得到更好的苹果定义。其中的数学原理,我们下一部分详细介绍。
Diversity by Re-weighting
1 Bootstrapping as Re-weighting Process
在介绍这个演算法之前,我们先来讲一下上节课就介绍过的bagging。Bagging的核心是bootstrapping,通过对原始数据集D不断进行bootstrap的抽样动作,得到与D类似的数据集Dt^,每组Dt^都能得到相应的gt,从而进行aggregation的操作。现在,假如包含四个样本的D经过bootstrap,得到新的Dt^如下:

那么,对于新的Dt^,把它交给base algorithm,找出Ein最小时对应的gt,如下图右边所示。
E0/1in(h)=14∑(x,y)∈Dt^[y≠h(x)]

参数u相当于是权重因子,当Dt^中第i个样本出现的次数越多的时候,那么对应的ui越大,表示在error function中对该样本的惩罚越多。所以,从另外一个角度来看bagging,它其实就是通过bootstrap的方式,来得到这些ui值,作为犯错样本的权重因子,再用base algorithm最小化包含ui的error function,得到不同的gt。这个error function被称为bootstrap-weighted error。
2 Weighted Base Algorithm

其实,这种weightd base algorithm我们之前就介绍过类似的算法形式。例如在soft-margin SVM中,我们引入允许犯错的项,同样可以将每个点的error乘以权重因子un。加上该项前的参数C,经过QP,最终得到0≤αn≤Cun,有别于之前介绍的0≤αn≤C。这里的un相当于每个犯错的样本的惩罚因子,并会反映到αn的范围限定上。
同样在logistic regression中,同样可以对每个犯错误的样本乘以相应的un,作为惩罚因子。un表示该错误点出现的次数,un越大,则对应的惩罚因子越大,则在最小化error时就应该更加重视这些点。如何将un引入惩罚函数中?我们可以通过概率分布u来对样本进行采样
3 Re-weighting for More Diverse Hypothesis
我们知道不同的u组合经过base algorithm得到不同的gt。那么如何选取u,使得到的gt之间有很大的不同呢?之所以要让所有的gt差别很大,是因为上节课aggregation中,我们介绍过gt越不一样,其aggregation的效果越好,即每个人的意见越不相同,越能运用集体的智慧,得到好的预测模型。
为了得到不同的gt,我们先来看看gt和gt+1是怎么得到的:

如上所示,gt是由utn得到的,gt+1是由u(t+1)n得到的。如果gt这个模型在使用u(t+1)n的时候得到的error很大,即预测效果非常不好,那就表示由u(t+1)n计算的gt+1会与gt有很大不同。而gt+1与gt差异性大正是我们希望看到的。
怎么做呢?方法是利用gt在使用u(t+1)n的时候表现很差的条件,越差越好。如果在gt作用下,u(t+1)n中的表现(即error)近似为0.5的时候,表明gt对u(t+1)n的预测分类没有什么作用,就像抛硬币一样,是随机选择的。这样的做法就能最大限度地保证gt+1会与gt有较大的差异性。其数学表达式如下所示:

4 ‘Optimal’ Re-weighting
乍看上面这个式子,似乎不好求解。但是,我们对它做一些等价处理,其中分式中分子可以看成gt作用下犯错误的点,而分母可以看成犯错的点和没有犯错误的点的集合,即所有样本点。其中犯错误的点和没有犯错误的点分别用橘色方块和绿色圆圈表示:

要让分式等于0.5,显然只要将犯错误的点和没有犯错误的点的数量调成一样就可以了。也就是说,在gt作用下,让犯错的u(t+1)n数量和没有犯错的u(t+1)n数量一致就行。一种简单的方法就是利用放大和缩小的思想(本节课开始引入识别苹果的例子中提到的放大图片和缩小图片就是这个目的),将犯错误的utn和没有犯错误的utn做相应的乘积操作,使得二者值变成相等。例如utnof incorrect为1126,utn of correct为6211,要让u(t+1)n中错误比例正好是0.5,可以这样做:

对于incorrect u(t+1)n:
u(t+1)n⇐u(t)n⋅6211
对于correct u(t+1)n:
u(t+1)n⇐u(t)n⋅1126
或者利用犯错的比例来做,令weighted incorrect rate和weighted correct rate分别设为11267337和62117337。一般求解方式是令犯错率为ϵt,在计算u(t+1)n,utn的时候分别乘以(1−ϵt)和ϵt。

Adaptive Boosting Algorithm
1 Scaling Factor
下面我们定义一个新的缩放量
t=1−ϵtϵt‾‾‾‾‾‾‾√
对于正确的utn,它将乘以t,对于错误的utn,它将除以t.这样做的效果和以前做的效果类似。但之所以引入t,是因为它能告诉我们更多的物理意义,因为如果epxilont≤12,得到t≥1,那么接下来错误的utn与t的乘积就相当于把错误点放大了,而正确的utn与t的相除就相当于把正确点缩小了。这种scale up incorrect和scale down correct的做法与本节课开始介绍的学生识别苹果的例子中放大错误的图片和缩小正确的图片是一个原理,让学生能够将注意力更多地放在犯错误的点上。通过这种scaling-up incorrect的操作,能够保证得到不同于gt的gt+1。
2 A Preliminary Algorithm
接下来我们形成了一个初始的算法

但是,上述步骤还有两个问题没有解决,第一个问题是初始的u(1)应为多少呢?一般来说,为了保证第一次Ein最小的话,设u(1)=1N即可。这样最开始的g1就能由此推导。第二个问题,最终的G(x)应该怎么求?是将所有的g(t)合并uniform在一起吗?一般来说并不是这样直接uniform求解,因为g(t+1)是通过gt得来的,二者在Ein上的表现差别比较大。所以,一般是对所有的g(t)进行linear或者non-linear组合来得到G(x)。
3 Linear Aggregation on the Fly
接下来的内容,我们将对上面的第二个问题进行探讨,研究一种算法,将所有的g(t)进行linear组合。方法是计算g(t)的同时,就能计算得到其线性组合系数αt,即aggregate linearly on the fly。这种算法使最终求得g(t+1)的时候,所有g(t)的线性组合系数α也求得了,不用再重新计算α了。这种Linear Aggregation on the Fly算法流程为:

如何在每次迭代的时候计算αt呢?我们知道αt与ϵt是相关的:ϵt越小,对应的应该越大,ϵt越大,对应的αt应该越小。又因为t与ϵt是负相关的,所以αt应该是t的单调函数。我们构造αt为:
αt=ln(t)

αt这样取值是有物理意义的,例如当ϵt=12时,error很大,跟掷骰子这样的随机过程没什么两样,此时对应的t=1,αt=0,即此gt对G没有什么贡献,权重应该设为零。而当ϵt=0时,没有error,表示该gt预测非常准,此时对应的t=∞,αt=∞,即此gt对G贡献非常大,权重应该设为无穷大。
这种算法被称为Adaptive Boosting。它由三部分构成:base learning algorithm A,re-weighting factor t和linear aggregation αt。这三部分分别对应于我们在本节课开始介绍的例子中的Student,Teacher和Class。
4 Adaptive Boosting (AdaBoost) Algorithm

5 Theoretical Guarantee of AdaBoost

上式中,Eout(G)的上界由两部分组成,一项是Ein(G),另一项是模型复杂度O(*)。模型复杂度中dvc(H)是gt的VC Dimension,T是迭代次数,可以证明G的dvc服从O(dvc(H)⋅TlogT)。
对于VC Bound的第一项Ein(G),如果满足ϵt≤ϵ<12,则经过T=O(logN)次迭代之后,Ein(G)能减小到等于零的程度。
而当N很大的时候,其中第二项也能变得很小。因为这两项都能变得很小,那么整个Eout(G)就能被限定在一个有限的上界中。

boosting的精髓所在就是:如果存在一个比较弱的算法,所产生的g比随机猜稍微好一点,那么经过AdaBoost这套算法框架,可以把算法性能变强,甚至可以达到Ein=0和Eout很小
Adaptive Boosting in Action