Python3入门机器学习
11.1 什么是集成学习
1.什么是集成学习?
集成学习就是集成多个算法,让不同的算法对同一组数据进行分析得到结果,最终投票来看哪个结果是大家公认的更好的、更正确的结果。
用少数服从多数的方式集成多个模型算法进行数据处理,这种少数服从多数的方式称为hard voting。相应的,还有一种更重要的方式叫做soft voting。
2.soft voting:
将所有模型预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型为最终的预测结果。
hard voting 与 soft voting的对比:
如下图:
模型 1:A - 99%、B - 1%,表示模型 1 认为该样本是 A 类型的概率为 99%,为 B 类型的概率为 1%。
-
Hard Voting
-
Soft Voting
由此可以看出Soft Voting要求集合的每一个模型都能估计概率。