参考书籍:
周志华.机器学习 P171
李航.统计学习方法 P137
范明译.数据挖掘导论 P168
the element of statistical learning datamining .inference and prediction P337
Anintroduction to statitic learning P316
PRML P657
这里先介绍Adaboost
Adaboost:基于加性模型迭代式优化指数损失函数
1、思想:
- 先从初始训练集训练出一个基学习器
- 根据基学习器的表现对样本分布进行调整,将分错的样本的权重增大
- 基于调整后的样本分布来训练下一个基学习器
- 反复进行,训练T个学习器,采用结合策略进行预测
2、目标函数
最小化指数损失函数
|
|
最小化损失函数 |
|---|---|
|
|
令 |
|
|
|
|
|
|
|
|
|
| 该指数函数是 0-1 损失函数的替代函数 |
3、步骤
输入:训练集
输出:最终分类器
过程:
|
1.初始化样本权值分布 |
| fort 1,2,…,T: |
|
2. 基于分布 |
|
3. 计算 |
|
|
| if |
|
4. 确定分类器 |
|
|
| 5. 更新样本分布 |
|
|
|
|
| end for |
| 构建分类器的线性组合: |
| 最终分类器: |
注:
1、对无法接受带权样本的基学习算法,可通过重采样处理;即根据新的样本分布对训练集进行采样2、每轮生成基学习器时,需满足基本条件:
et<0.5 3、
αt 与et 的关系:当et<0.5 时,αt>0 ,αt 随et 的减小而增大,分类误差率越小的基本分类器在最终分类器中的作用最大。