集成学习一Boosting
http://blog.csdn.net/loveitlovelife/article/details/79392187
集成学习二Bagging与Random Forest
http://blog.csdn.net/loveitlovelife/article/details/79397739

结合策略

优点:
1.提高泛化性能
2.降低进入局部最小点的风险
3.扩大假设空间

平均法:简单平均、加权平均
适用范围:
+规模大的集成,学习的权重较多,加权平均法易导致过拟合
+个体学习器性能相差较大时宜使用加权平均法,相近用简单平均法。

投票法
1.绝对多数投票法:某标记超过半数;
2.相对多数投票法:预测为得票最多的标记,若同时有多个标记的票最高,则从中随机选取一个。
3.加权投票法:提供了预测结果,与加权平均法类似。

学习法
Stacking描述:先从初始数据集中训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器。在新数据集中,初级学习器的输出被当做样例输入特征,初始样本的标记仍被当做样例标记。

算法步骤:
输入:训练集D=(x1,y1),(x2,y2),...,(xm,ym);
初级学习算法:Λ1,Λ2,...,ΛT;
次级学习算法:Λ
过程:
1、for t=1,2,...,T do
2、ht=Λt(D);
3、end for
4、D=
5、for i=1,2,...,m do
6、for t=1,2,...,T do
7、zit=ht(xi);
8、endfor
9、D=D((zi1,zi2,...,ziT),yi);
10、endfor
11、h=Λ(D);
输出:H(x)=h(h1(x),h2(x),...,hT(x))

+通过交叉验证产生次级学习器的训练样本;
+将初级学习器的输出类概率作为次级学习器的输入属性,用多响应线性回归作为次基学习算法效果较好;

多样性

1.误差-分歧分解

H(x)=i=1Twihi(x)

则学习器hi的‘分歧’为:
A(hi|x)=(hi(x)H(x))2

集成的分歧:
A¯(h|x)=i=1TwiA(hi|x)=i=1Twi(hi(x)H(x))2

‘分歧’表征了个体学习器在样本上的不一致性即多样性

个体学习器和集成学习器的平方误差分别为:

E(hi|x)=(f(x)hi(x))2
E(H|x)=(f(x)H(x))2

E¯(h|x)=i=1Twi·E(hi|x)表示个体学习器误差的加权平均值,
则:
A¯(h|x)=i=1TwiE(hi|x)E(H|x)=E¯(h|x)E(H|x)

结论:个体学习器准确性越高,多样性越大,则集成性能越好

2.多样性度量
考虑个体分类器的两两相似/不相似性

对于二分类问题,分类器hihj的预测结果列联表为:
集成学习三结合策略及(平均、投票、stacking)与多样性
a表示hihj均预测为正类的样本数目;b、c、d含义由此类推;a+b+c+d=m,则有如下多样性度量方法:

+不合度量disij=b+cm,[0,1]

+相关系数ρij=adbc(a+b)(a+c)(c+d)(b+d)[1,1],hihj0

+Q-统计量Qij=adbcad+bc,Qijρij

+κ-统计量κ=p1p21p2,其中p1p2是两个分类器偶然达成一致的概率,他们可有数据集D估算:

p1=a+dm;p2=(a+b)(a+c)+(c+d)(b+d)m2

3多样性增强

+数据样本扰动:基于采样法产生不同数据子集,利用不同子集训练出不同的个体学习器,例如Bagging自助采样;AdaBoost序列采样。
此类扰动方法对“不稳定基学习器”很有效例如:决策树、神经网络

+输入属性扰动:通过对初始属性中提取“子空间(属性子集)”,在不同的空间中训练个体学习器
适用算法:线性学习器、支持向量机、朴素贝叶斯、k-近邻学习器等稳定基学习器,此类扰动可以产生大量多样性的个体,且节省开销时间

+输出表示扰动:对输出表示进行操纵以增强多样性,可对训练样本的类标记稍作变动,如“翻转法”、“ECOC编码法”

+算法参数扰动:设置算法的参数,例如神经网络的隐层神经元数、连接权值等,使用单一学习器时通常需要使用交叉验证方法来确定参数值。


Boosting主要关注降低偏差,而Bagging主要关注降低方差

相关文章:

  • 2021-05-22
  • 2022-12-23
  • 2022-01-06
  • 2021-06-13
  • 2021-11-22
  • 2021-10-20
  • 2021-11-08
  • 2021-05-20
猜你喜欢
  • 2021-07-10
  • 2022-01-07
  • 2021-10-31
  • 2021-12-03
  • 2022-01-09
  • 2021-07-29
  • 2021-12-12
相关资源
相似解决方案