1.简述一下随机森林算法的原理
随机选择n条数据,并随机选择m个特征,然后构建决策树,重复此过程构建M棵树,并采用多数表决或者平均法来预测结果
2.随机森林的随机性体现在哪里?
随机选择数据,随机选择特征
3.随机森林算法的优缺点?
优点:提高泛化能力;防止过拟合;对缺失值不敏感;可以处理高维数据;不用做特征选择
缺点:
4.随机森林为什么不能用全样本去训练m棵决策树?
不知道耶,但是我感觉如果用全样本取训练,会出现一模一样的树,从而导致过拟合,而且也会降低分类准确度
5.随机森林和GBDT的区别?
随机森林 GBDT
拟合真实值 拟合残差
bagging模型 boosting模型
对异常值不敏感 敏感
分类树、回归树 回归树
不需要归一化 需要归一化
不容易过拟合 容易过拟合
二、老师的答案
**:修改:第四行:有放回的选择n个样本