【机器学习】集成学习(二)----AdaBoost算法

AdaBoost是Boosting这类算法中的著名代表，它有多种推导方式，比较容易理解的就是基学习器的线性组合来最小化指数损失函数。

【AdaBoost算法过程】

输入:训练数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), . . ., (x_{N}, y_{N})}$ ,其中 $x_{i} \in X \subseteq R^{n}$ ,标记 $y_{i} \in Y = {- 1, + 1}$
输出:最终分类器 $G (x)$
(1)初始化原始训练数据集的权值分布 $D_{1}$ ；
　　　　 $D_{1} = (w_{11}, w_{12}, . . ., w_{1 N})$ ， $w_{1 i} = \frac{1}{N}$
$假设原始训练数据集具有均匀的权值分布$

(2)对 $m = 1, 2, . . ., M$

①使用具有权值分布 $D_{m}$ 的训练数据集学习，得到基分类器 $G_{m} (x) : X \to {- 1, + 1}$

②计算 $G_{m} (x)$ 在训练数据集上的分类误差率 $e_{m}$
　　　　 $e_{m} = \sum_{i = 1}^{N} P (G_{m} (x_{i}) \neq y_{i}) = \frac{\sum_{G_{m} (x_{i}) \neq y_{i}} w_{m i}}{\sum_{i = 1}^{N} w_{m i}} = \sum_{i = 1}^{N} w_{m i} I (G_{m} (x_{i}) \neq y_{i})$
$w_{m i} 表示第 m 轮中第 i 个实例的权值，我们定义分类误差率 e_{m} 为被 G_{m} (x)$
$误分类的样本对应的权值之和除以所有样本权值之和，由于所有样本权值$
$之和为 1 ，即 \sum_{i = 1}^{N} w_{m i} = 1 ，所以 e_{m} 即为 \sum_{G_{m} (x_{i}) \neq y_{i}} w_{m i}$

③计算 $G_{m} (x)$ 的系数 $α_{m}$
　　　　 $α_{m} = \frac{1}{2} l n \frac{1 - e_{m}}{e_{m}}$
$系数 α_{m} 表示着对应的基分类器 G_{m} (x) 在最终分类器中的重要性，当 e_{m} \leq \frac{1}{2} 时，$
$α_{m} \geq 0 ，并且 α_{m} 随着 e_{m} 的减小而增大，也就是说分类误差率越小的基分类器$
$在最终分类器中的作用越大$

④更新训练数据集的权值分布 $D_{m + 1}$
　　　　 $D_{m + 1} = (w_{m + 1, 1}, w_{m + 1, 2}, . . ., w_{m + 1, N})$
$更新权值分布即更新每一个样本的权重，可以写成下面这种形式 :$
　　　　 $w_{m + 1, i} = {\begin{cases} \frac{w_{m i}}{Z_{m}} e^{- α_{m}}, & G_{m} (x_{i}) = y_{i} \\ \frac{w_{m i}}{Z_{m}} e^{α_{m}}, & G_{m} (x_{i}) \neq y_{i} \end{cases}$
$我们也可以把条件项写到式子里，因为 y_{i} 和 G_{m} (x_{i}) 的取值都为 - 1 或 + 1 ，也就$
$是说当 G_{m} (x_{i}) = y_{i} 时， y_{i} G_{m} (x_{i}) = 1; 当 G_{m} (x_{i}) \neq y_{i} 时， y_{i} G_{m} (x_{i}) = - 1$
$因此上式可以写为 :$
　　　　 $w_{m + 1, i} = \frac{w_{m i}}{Z_{m}} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$上式中的 Z_{m} 是规范化因子，它使 D_{m + 1} 成为一个概率分布$
　　　　 $Z_{m} = \sum_{i = 1}^{N} w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}$

(3)对第(2)步中学习到的M个基分类器进行线性组合得到最终分类器
线性组合： $f (x) = \sum_{m = 1}^{M} α_{m} G_{m} (x)$
最终分类器： $G (x) = s i g n (f (x)) = s i g n (\sum_{m = 1}^{M} α_{m} G_{m} (x))$

算法过程如下图：
【机器学习】集成学习(二)----AdaBoost算法

【AdaBoost算法的训练误差分析】

AdaBoost算法最基本的性质就是在学习过程中不断减少训练误差，即减少训练数据集上的分类误差率。对于AdaBoost算法来说，其最终分类器的训练误差是有上界的。而对于下界，我们不需要知道。
其训练误差界为：
$\frac{1}{N} \sum_{i = 1}^{N} I (G (x_{i}) \neq y_{i}) \leq \frac{1}{N} \sum_{i = 1}^{N} e^{- y_{i} f (x_{i})} = \prod_{m = 1}^{M} Z_{m}$
$\frac{1}{N} \sum_{i = 1}^{N} I (G (x_{i}) \neq y_{i}) 即 \frac{N个样本中被误分类的样本个数}{N} ，对上式的证明如下：$

前半部分： $\frac{1}{N} \sum_{i = 1}^{N} I (G (x_{i}) \neq y_{i}) \leq \frac{1}{N} \sum_{i = 1}^{N} e^{- y_{i} f (x_{i})}$
$当 G (x_{i}) \neq y_{i} 时， y_{i} f (x_{i}) < 0, 则 e^{- y_{i} f (x_{i})} \geq 1 ，由此可得前半部分$

后半部分： $\frac{1}{N} \sum_{i = 1}^{N} e^{- y_{i} f (x_{i})} = \prod_{m = 1}^{M} Z_{m}$
已知 $f (x_{i}) = \sum_{m = 1}^{M} α_{m} G_{m} (x_{i})$ ， $Z_{m} w_{m + 1, i} = w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$\frac{1}{N} \sum_{i = 1}^{N} e^{- y_{i} f (x_{i})} = \frac{1}{N} \sum_{i = 1}^{N} e^{- \sum_{m = 1}^{M} α_{m} y_{i} G_{m} (x_{i})} = \frac{1}{N} \sum_{i = 1}^{N} \prod_{m = 1}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$= \sum_{i = 1}^{N} w_{1 i} \prod_{m = 1}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})}$ $此处我们将 \frac{1}{N} 看成 w_{1 i} ，因为 w_{1 i} 就是均匀的权值分布$
$= \sum_{i = 1}^{N} w_{1 i} e^{- α_{1} y_{i} G_{1} (x_{i})} \prod_{m = 2}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$(观察 \sum_{i = 1}^{N} w_{1 i} e^{- α_{1} y_{i} G_{1} (x_{i})} 可以发现就等于 Z_{1} \sum_{i = 1}^{N} w_{2 i})$
$= Z_{1} \sum_{i = 1}^{N} w_{2 i} \prod_{m = 2}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})} = Z_{1} \sum_{i = 1}^{N} w_{2 i} e^{- α_{2} y_{i} G_{2} (x_{i})} \prod_{m = 3}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$= Z_{1} Z_{2} \sum_{i = 1}^{N} w_{3 i} \prod_{m = 3}^{M} e^{- α_{m} y_{i} G_{m} (x_{i})}$
$= . . . = Z_{1} Z_{2} . . . Z_{M - 1} \sum_{i = 1}^{N} w_{M i} e^{- α_{M} y_{i} G_{M} (x_{i})} = \prod_{m = 1}^{M} Z_{m}$

我们根据这样的结论可以在每一轮选取适当的 $G_{m}$ 使得 $Z_{m}$ 最小，从而使训练误差下降最快。 $注意，这里是只对每一轮的 Z_{m} 使其最小化，不是对 Z_{m} 的乘积最小化$

对于二类分类的AdaBoost的训练误差界为：
由于 $Z_{m} = \sum_{i = 1}^{N} w_{m i} e^{- α_{m} y_{i} G_{m} (x_{i})} = \sum_{y_{i} = G_{m} (x_{i})} w_{m i} e^{- α_{m}} + \sum_{y_{i} \neq G_{m} (x_{i})} w_{m i} e^{α_{m}}$
$\sum_{y_{i} = G_{m} (x_{i})} w_{m i} = 1 - e_{m}$
$\sum_{y_{i} \neq G_{m} (x_{i})} w_{m i} = e_{m}$
$e^{- α_{m}} = e^{- \frac{1}{2} l n \frac{1 - e_{m}}{e_{m}}} = \sqrt{\frac{e_{m}}{1 - e_{m}}}$
$e^{α_{m}} = e^{\frac{1}{2} l n \frac{1 - e_{m}}{e_{m}}} = \sqrt{\frac{1 - e_{m}}{e_{m}}}$
所以 $Z_{m} = 2 \sqrt{e_{m} (1 - e_{m})}$ ，令 $γ_{m} = \frac{1}{2} - e_{m}$ ，则 $Z_{m} = \sqrt{1 - 4 γ_{m}^{2}}$
$因此 \prod_{m = 1}^{M} Z_{m} = \prod_{m = 1}^{M} 2 \sqrt{e_{m} (1 - e_{m})} = \prod_{m = 1}^{M} \sqrt{1 - 4 γ_{m}^{2}} \leq e^{- 2 \sum_{m = 1}^{M} γ_{m}^{2}}$
$此处的 e^{- 2 \sum_{m = 1}^{M} γ_{m}^{2}} 是通过 e^{x} 和 \sqrt{1 - x} 在点 x = 0 的泰勒展开式推出的，推导如下 :$
$e^{x} 在 x = 0 处泰勒展开：$
　　　　 $e^{x} = 1 + x + \frac{1}{2} x^{2} + o (x^{2})$
　　　　 $e^{- 2 γ_{m}^{2}} = 1 - 2 γ_{m}^{2} + \frac{1}{2} (- 2 γ_{m}^{2})^{2} = 1 - 2 γ_{m}^{2} + 2 γ_{m}^{4}$
$\sqrt{1 - x} 在 x = 0 处泰勒展开：$
　　　　 $\sqrt{1 - x} = 1 - \frac{1}{2} x - \frac{1}{8} x^{2} + o (x^{2})$
　　　　 $\sqrt{1 - 4 γ_{m}^{2}} = 1 - \frac{1}{2} 4 γ_{m}^{2} - \frac{1}{8} (4 γ_{m}^{2})^{2} = 1 - 2 γ_{m}^{2} - 2 γ_{m}^{4}$ 　
$因此 \sqrt{1 - 4 γ_{m}^{2}} \leq e^{- 2 γ_{m}^{2}}$ 　　
$如果存在 γ > 0 ，对所有 m 有 γ_{m} \geq γ ，则 \frac{1}{N} \sum_{i = 1}^{N} I (G (x_{i}) \neq y_{i}) \leq e^{- 2 M γ^{2}}$
$在此条件下，我们可以发现 A d a B o o s t 的训练误差是以指数速率下降的$
　　　　　
下一篇会讨论前向分步算法和提升树，其实感觉前向分步算法加基函数线性组合就是一个框架，而AdaBoost算法和提升树都是利用这个框架来实现的。它们的不同点大多在于损失函数，而对于难以优化的损失函数我们会用梯度提升(最速下降的近似方法)来求解，这也就是梯度提升树的由来。

参考文献：《统计学习方法》