决策树原理
决策树是一种常见的分类模型。
优点:
- 具有很好地解释性,模型可以生成可以理解的规则。
- 可以发现特征的重要程度。
- 模型的计算复杂度较低。
缺点:
- 模型容易过拟合,需要采用减枝技术处理。
- 不能很好利用连续型特征。
- 预测能力有限,无法达到其他强监督模型效果。
基于企鹅数据集的决策树实战
思考与讨论
1.为什么说Boosting既可减小方差,又可减小偏差?
①因为boosting是一个迭代算法,每一次都根据上一次迭代的预测结果对样本进行加权,所以随着不断的迭代误差会越来越小,模型的偏差也就越来越小。
②boosting的最终模型是对多个自模型进行了加权平均,而在训练每个子模型时对错分点样本的权重的调整也可以看作是对原始训练数据的一种扰动,因此可以理解为降低了方差。
2.有哪些Boosting方法不采用随机抽样?
梯度下降提升类算法都不需要随机抽样。如GBDT, XGBoost。Adaboost可以使用随机抽样,也可以不用(分步向前)。
3.Adaboost算法的随机性体现在哪里?
Adaboost算法的随机性体现在使用Bootstrap抽样和加权上,加权相当于改变了样本的分布。
4.怎么验证Adaboost模型的泛化能力?
Adaboost算法的泛化能力一般不适合用袋外误差,而是用标准的测试误差来衡量。
对于分类树,最开始以信息熵的方式作为特征分裂节点的选择,是第一代ID3方法,之后改进信息熵的部分缺点,采用信息增益的方式作为分类节点,变成了C4.5方法,再有就是采用gini系数的方式作为特征分裂的方法,变成了CART分类树,但是gini系数的方法更多见于回归树里面,此时回归分类已经有点混用了。