【发布时间】:2018-02-21 17:20:42
【问题描述】:
据我了解,RF 随机选择特征,因此很难过拟合。但是,在 sklearn 中,梯度提升还提供了 max_features 选项,这有助于防止过度拟合。那么,为什么有人会使用随机森林呢? 谁能根据给定的数据解释何时使用梯度提升与随机森林?
非常感谢任何帮助。
【问题讨论】:
-
你的问题有点像说“汽车在路上行驶,但船在水中行驶得很快。为什么有人会用船在路上行驶?”当然,随机森林有某些类型的数据问题,它非常适合。这是一种监督学习方法,当您拥有许多特征并希望每个特征都在模型中发挥潜在作用而不必担心偏差时,这种方法非常有用。
-
@TimBiegeleisen 不同之处在于很容易识别何时使用船和何时使用汽车。何时使用随机森林与何时使用梯度提升并不总是那么清楚。有几个复杂的梯度提升库(lightgbm、xgboost 和 catboost)对于大多数类型的问题可能会优于随机森林。识别表明随机森林何时可能表现更好的问题特征是一个很好的问题。我当然没有答案。
-
我投票决定将此问题作为题外话结束,因为它与machine learning, rather than software development 有关。您可以在Cross Validated 或DataScience.SE 上提出这些问题。
标签: machine-learning random-forest xgboost