Random Forest vs GradientBoostingDecisionTree

相同

随机森林和GBDT都属于集成算法，base model都是决策树。

不同

随机森林

随机森林是决策树的bagging。
bagging通过重复对原训练数据集上进行有放回地采样生成的数据集用base model进行训练多次，然后，对于分类求众数，对于回归求平均作为最终结果。
可并行。
随机森林希望单个决策树偏差小、方差大，这样通过N个决策树的叠加可以减少方差，达到较好的结果。N越大，泛化能力越好。
随机森林里的树可以是分类树也可以是回归树。

GBDT

GBDT是决策树的boosting。
boosting通过在原训练数据集变化的版本上进行base model的训练，当前base model的训练是基于上一个base model的表现的，然后线性组合起这些base model。
是串行。
GBDT希望单个决策树能力只要好于随机即可，这样通过boosting后就可以降低偏差，达到较好的表现。
树越多，GBDT越可能过拟合。
GBDT的核心在于累加所有树的结果作为最终结果，而分类树的结果显然是没办法累加的，所以GBDT中的树都是回归树，不是分类树。

posted on 2018-04-20 23:25 cherrychenlee 阅读(...) 评论(...) 编辑收藏