Adaboost 算法原理

在boosting系列算法中，Adaboost是最著名的算法之一。Adaboost既可以用作分类，也可以用作回归。

集成学习原理中，boosting系列算法的思想：

Boosting算法首先对训练集用初始权重训练一个弱学习器1，根据弱学习1的学习误差率更新训练样本点的权重，使学习误差率高的点权重变高，从而在弱学习器2得到更多重视。然后训练弱学习器2。如此重复进行，直到弱学习器达到指定数目T，最后将T个弱学习通过集合策略整合成强学习器。

2. Adaboost算法原理

假设训练样本是

Adaboost 算法原理

训练集第k个弱学习器的初始权重为

Adaboost 算法原理

2.1 Adaboost分类问题

多元分类是二元分类的推广，假设我们是二元分类，输出为 {-1, 1}，

则第k个弱分类器 G_k(x) 在训练集上的分类误差率（误分类样本权值之和）：

Adaboost 算法原理

对于二分类问题，第k个弱分类器 G_k(x) 的系数：

Adaboost 算法原理

从上式看出，当 e_k ≤ ½ 时，α_k≥ 0，并且α_k 随着e_k 的减小而增大，所以分类误差率越小的基本分类器在最终分类器中的作用越大。

更新样本权重D。假设第 k 个弱分类器的样本集权重系数为 Adaboost 算法原理，对应的第 k+1 个弱分类器的样本集权重系数为

Adaboost 算法原理

这里 Z_k 是规范化因子

Adaboost 算法原理

从 w_k_+1,i 公式看出，如果第 i 个分类样本错误，则 Adaboost 算法原理，导致样本权重在第 k+1 个弱分类器中增大，如果分类正确，则权重在第 k+1 个弱分类器中减少。

最后是集合策略。Adaboost分类采用的是加权表决法，最终的强分类器为：

G(x) = Adaboost 算法原理

算法伪代码：

下面的一个错误，应为：G_m(x)的分类误差率：e_m = p(Gm(x_i) ≠ y_i)

Adaboost 算法原理

Adaboost分类问题具体实例

例：给定如下训练数据。假设弱分类器由 x＜v 或 x＞v产生，其阈值 v 使该分类器在训练数据集上分类误差率最低。试用AdaBoost算法学习一个强分类器。

序号	1	2	3	4	5	6	7	8	9	10
x	0	1	2	3	4	5	6	7	8	9
y	1	1	1	-1	-1	-1	1	1	1	-1

解：初始化数据权值分布

D₁ = (w₁₁, w₁₂,...w₁₁₀)

w_1i = 0.1，i=1,2,...10

对 m=1，

　　　（a）在权值分布为D₁的训练数据上，阈值 v 取2.5时分类误差率最低，故基本分类器为

Adaboost 算法原理

下面D₂的计算过程：

分类正确的样本权重更新计算：w_1i * exp( -α_i * y_i * G₁(x_i) ) = 0.1*e^{(-0.4236*1*1)} = 0.06546857038

分类错误的样本权重更新计算：w_1i * exp( -α_i * y_i * G₁(x_i) ) = 0.1*e^(0.4236*1*1) = 0.15274504914

Z₁ = 0.06546857038*7 + 0.15274504914 *3 = 0.9165151401

分类正确的样本更新后的权重：w_2i = 0.06546857038 / 0.9165151401 = 0.07143206

分类错误的样本更新后的权重：w_2i = 0.15274504914 / 0.9165151401 = 0.16665851