关于Adaboost——样本抽样的权值的实际意义

看这篇文章的前提：已经看了PRML中的Adaboost的算法流程

看懂下面的内容必须牢牢记住：Adaboost使用的误差函数是指数误差

文章主要目的：理解样本抽样的权值是为什么那样变化的。

得出的结论：训练第m个基分类器y_m时，样本n的抽样权重是f_m-1在样本n上的指数误差

当y_m将第n个样本分对了时，则权值保持不变，否则权值增加exp{α_m}(>1)倍

关于Adaboost——样本抽样的权值的实际意义（1）

关于Adaboost——样本抽样的权值的实际意义（2）

关于Adaboost——样本抽样的权值的实际意义（3）

(1)表示分类器f_m的误差函数是指数误差函数

(2)表示分类器f_m是一系列的基函数(y_l,即基分类器)的加权和，α_l是基分类器y_l的权重，l=1...m

(3)表示分类器f_m是二分类

Adaboost是选择恰当的α_l和y_l使得误差E最小，l=1...m

找到全局最优是件很麻烦的事，所以决定找到局部最优，采用了前向分步算法

前向分步算法

假设前m-1个基分类器y₁(x)...y_m-1(x)已经确定，且相应的权重α₁...α_m-1也已经确定，此时只需要寻找恰当的α_m和y_m使得E最小。

因此E可以转换为：

关于Adaboost——样本抽样的权值的实际意义（4）

根据指数误差函数，我们可以知道关于Adaboost——样本抽样的权值的实际意义，其实就是f_m-1在样本n上的误差，即训练y_m时，样本n的抽样权重是f_m-1在样本n上的误差。

（4）中右边的累加项是表示f_m在样本n上的误差，所以就有了下面的递推公式

关于Adaboost——样本抽样的权值的实际意义（5）

关于Adaboost——样本抽样的权值的实际意义（6）

公式6很容易得到，将（6）代入（5）中，可以得到（7）

关于Adaboost——样本抽样的权值的实际意义（7）

而关于Adaboost——样本抽样的权值的实际意义与n无关，即与样本(数据)无关，所以对样本的抽样没影响，可以去掉。

当y_m将第n个样本分对了，则权值保持不变，否则权值增加expα_m(>1)倍

接下来的内容是关于算法的三个主要部分的解释：

1、当考虑y_m的变化时，最小化分类器f_m的指数误差损失等价于最小化第m个基分类器y_m的加权的0-1损失

2、当只考虑α_m的变化时，最小化分类器f_m的指数误差损失，得到基分类器的权值α_m的值（与加权误差率的关系）

3、加权误差率

对（4）进行进一步的转换得到：

关于Adaboost——样本抽样的权值的实际意义（8）

如果只考虑y_m的变化，最小化E等价于最小化（9）

关于Adaboost——样本抽样的权值的实际意义（9）

（9）表示加权误差和

如果只考虑α_m的变化，最小化E得到

关于Adaboost——样本抽样的权值的实际意义（10）

其中：

关于Adaboost——样本抽样的权值的实际意义

是加权误差率

补充AdaBoost算法框架

关于Adaboost——样本抽样的权值的实际意义