西瓜书+实战+吴恩达机器学习（十一）监督学习之集成学习

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~

0. 前言

集成学习（ensemble learning）通过构建并结合多个学习器来完成学习任务。

同质集成中的个体学习器称为基学习器，相应学习算法称为基学习算法。

个体学习器的准确性越高，多样性越大，集成效果越好。

集成学习主要有以下优点：

Boosting：先训练一个基学习器，然后根据学习器的表现对样本分布进行调整，给予做错的样本更多的关注，再基于调整后的分布训练下一个基学习器，如此重复达到指定的学习器数目，将这些学习器集成
Bagging：对数据集进行有放回采样，采 $m$ 次构成一个新的数据集，基于这个数据集训练基学习器，如此重复采样并训练直到达到指定学习器数目，将这些学习器集成

Boosting主要关注降低偏差，因此能基于泛化性能弱的学习器构建出很强的集成。

Bagging主要关注降低方差，因此在易受样本扰动的学习器（决策树、神经网络）上效果更佳。

稳定基学习器（线性学习器、svm、nb、knn）对数据样本扰动不敏感。

在个体学习器性能相差较大时适合用加权平均法，性能相近时适合用简单平均法。

名称	公式
简单平均法	$H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x)$
加权平均法	$H(x)=\sum_{i=1}^Tw_ih_i(x)$

绝对多数投票法提供了拒绝预测，对于可靠性要求较高的任务是一个很好的机制。

名称	公式
绝对多数投票法	$H(x)=\left\{\begin{aligned}&c_j,\ if\ \sum_{i=1}^Th_i^j(x)>0.5\sum_{k=1}^N\sum_{i=1}^Th_i^k(x)\\&reject,\ otherwise\end{aligned}\right.$
相对多数投票法	$H(x)=c_{\arg \max_j\sum_{i=1}^Th_i^j(x)}$
加权投票法	$H(x)=c_{\arg \max_j\sum_{i=1}^Tw_ih_i^j(x)}$

基于类概率进行结合比直接基于类标记进行结合性能更好。

Stacking先从初始数据集中训练出初级学习器，然后将每个学习器的输出作为新的特征，用于训练次级学习器。

一般使用训练初级学习器时未使用的样本生成次级学习器的训练数据。

有研究表明，将初级学习器的输出类概率作为次级学习器的输入属性，用多相应线性回归作为次级学习算法效果更好。

算法如下图所示（图源：机器学习）：
西瓜书+实战+吴恩达机器学习（十一）监督学习之集成学习

典型的做法是考虑个体分类器的两两相似性。

给定数据集和两个分类器的分类数目（图源：机器学习）， $a+b+c+d=m$ ：
西瓜书+实战+吴恩达机器学习（十一）监督学习之集成学习

名称	公式	多样性越大
不合度量	$dis_{ij}=\frac{b+c}{m}$	值越大
相关系数	$\rho_{ij}=\frac{ad-bc}{\sqrt{(a+b)(a+c)(c+d)(b+d)}}$	值越接近0
Q-统计量	$Q_{ij}=\frac{ad-bc}{ad+bc}$	值越接近0
k-统计量	$k=\frac{p_1-p_2}{1-p_2}\\p_1=\frac{a+d}{m}\\p_2=\frac{(a+b)(a+c)+(c+d)(b+d)}{m^2}$	值越小

如果这篇文章对你有一点小小的帮助，请给个关注，点个赞喔，我会非常开心的~