1.简述一下随机森林算法的原理

随机选择n条数据,并随机选择m个特征,然后构建决策树,重复此过程构建M棵树,并采用多数表决或者平均法来预测结果
2.随机森林的随机性体现在哪里?

随机选择数据,随机选择特征
3.随机森林算法的优缺点?

优点:提高泛化能力;防止过拟合;对缺失值不敏感;可以处理高维数据;不用做特征选择

缺点:
4.随机森林为什么不能用全样本去训练m棵决策树?

不知道耶,但是我感觉如果用全样本取训练,会出现一模一样的树,从而导致过拟合,而且也会降低分类准确度
5.随机森林和GBDT的区别?
                            随机森林                              GBDT

拟合真实值                                               拟合残差

bagging模型                                            boosting模型

对异常值不敏感                                      敏感

分类树、回归树                                      回归树

不需要归一化                                          需要归一化

不容易过拟合                                          容易过拟合

二、老师的答案

**:修改:第四行:有放回的选择n个样本

1117-day3

1117-day3

 

1117-day3

1117-day3

1117-day3

 

 

相关文章: