【发布时间】:2021-02-03 22:02:28
【问题描述】:
我使用多种算法训练了一个模型,包括来自 skicit-learn 和 LightGBM 的随机森林。这些模型在准确性和其他统计数据方面的表现相似。
问题在于这两种算法在特征重要性方面的行为不一致。我使用了默认参数,并且我知道它们使用不同的方法来计算特征重要性,但我认为高度相关的特征应该始终对模型的预测产生最大的影响。随机森林对我来说更有意义,因为高度相关的特征出现在顶部,而 LightGBM 并非如此。
有没有办法解释这种行为?LightGBM 的结果是否值得信赖?
随机森林特征重要性
LightGBM 特征重要性
与目标的相关性
【问题讨论】:
-
不同的算法可能对重要和不重要(在你的情况下装袋和提升)有不同的看法。最重要的是,您将线性算法与非线性算法(树与线性相关)混合在一起。
-
@Sergey,感谢您的评论。我知道他们确实有不同的意见,并且完全同意线性相关性可能无法让您全面了解基于树的算法中的特征重要性。但我想他们仍然会说一句话。对于这种情况,前 4 个功能的贡献很小,这让我感到非常惊讶。与其他相关性相比,它们的相关性非常出色。
标签: python machine-learning scikit-learn random-forest lightgbm