1117-day3 - 爱码网

1.简述一下随机森林算法的原理

随机选择n条数据，并随机选择m个特征，然后构建决策树，重复此过程构建M棵树，并采用多数表决或者平均法来预测结果
2.随机森林的随机性体现在哪里？

随机选择数据，随机选择特征
3.随机森林算法的优缺点？

优点：提高泛化能力；防止过拟合；对缺失值不敏感；可以处理高维数据；不用做特征选择

缺点：
4.随机森林为什么不能用全样本去训练m棵决策树？

不知道耶，但是我感觉如果用全样本取训练，会出现一模一样的树，从而导致过拟合，而且也会降低分类准确度
5.随机森林和GBDT的区别？
随机森林 GBDT

拟合真实值拟合残差

bagging模型 boosting模型

对异常值不敏感敏感

分类树、回归树回归树

不需要归一化需要归一化

不容易过拟合容易过拟合

二、老师的答案

**：修改：第四行：有放回的选择n个样本

1117-day3