【机器学习】集成学习相关概念

【机器学习】集成学习

简介

集成学习是机器学习的一种训练思路，而非具体的算法。其核心思路就是“人多力量大”——通过构建并结合多个学习器完成学习任务。
【机器学习】集成学习相关概念
集成学习中的个体学习器可以是同种类型（同质），也可以是不同类型（异质）。两种情况下的个体学习器也可以分别被称作基学习器与组件学习器。个体学习器要求”好而不同“（有一定的准确性，学习器之间要有差异性）

【机器学习】集成学习相关概念
但事实上，个体学习器的准确性与差异性本身存在冲突。一般的，准确性很高之后增加差异性就要牺牲准确性。如何产生并结合”好而不同“的个体学习器是集成学习研究的核心。

根据个体学习器的生成方式，目前的集成学习方法大致分为两大类：

个体学习器之间强依赖关系，必须串行生成的序列化方法（Boosting为代表）
个体学习器可同时生成的并行化方法（Bagging为代表）

Boosting

Boosting的工作机制是：先从初始训练集训练出一个基学习器，再根据基学习器表现对训练样本分布进行调整，使得先前基学习器做错的样本得到更多关注，然后基于调整后的样本分布训练下一个基学习器，如此重复进行，直至基学习器数目达到事先指定的值，然后将所有基学习器加权结合

【机器学习】集成学习相关概念

AdaBoost

以二分类任务为例，算法思路如下：

初始化训练样本的权重，每个样本权值相同
进行 $T$ 轮迭代，每一轮迭代 $t$ 中：

a.使用具有权值分布 $D_t$ 的训练集学习得到基学习器 $h_t(\boldsymbol x)$

b.计算基学习器在训练集上的分类误差率 $e_t$ (在这里就是误分类的样本权值之和)

c.计算 $h_t(\boldsymbol x)$ 的系数 $\alpha_t$ ,该系数衡量学习器在最终学习器所占的权重
$\alpha_t=\frac{1}{2}ln\frac{1-e_t}{e_t}$
$e_t\leq \frac{1}{2}$ 是， $\alpha_t\geq0$ ,并且随着 $e_t$ 增大而减小，说明分类误差率越大的基学习器在最终学习器中的权重越小。

d.更新权重
组合基学习器

GBDT(Gradient Boosting Decision Tree)

GBDT算法原理以及实例理解

Bagging与随机森林

Bagging

Bagging的基本流程：使用bootstrap sampling从数据集中取出 $T$ 个包含 $m$ 个训练样本的训练集，然后基于每个训练集训练出一个基学习器，然后将这些基学习器结合
【机器学习】集成学习相关概念
对预测输出进行结合时，Bagging通常对分类任务使用简单投票法，对回归任务使用简单平均法。