【问题标题】:Random Forest: mismatch between %IncMSE and %NodePurity随机森林:%IncMSE 和 %NodePurity 不匹配
【发布时间】:2013-05-04 03:01:04
【问题描述】:

我在一个相当小的数据集(即 11 个变量中的 28 个观测值)上对 100,000 个分类树进行了随机森林分析。

然后我绘制了变量重要性的图

在结果图中,至少有一个重要变量在 %IncMSE 和 IncNodePurity 之间存在严重不匹配。事实上,该变量在前者中的重要性似乎排名第七(即 %IncMSE

谁能告诉我我应该如何解释这种不匹配?

所讨论的变量与另一个变量显着相关,该变量在两个图表中始终排在第二位。这可能是一个线索吗?

【问题讨论】:

    标签: machine-learning random-forest


    【解决方案1】:

    第一张图显示,如果通过随机排列为变量赋值,则 MSE 会增加多少。值越高,变量重要性越高。

    另一方面,节点纯度是通过基尼指数来衡量的,这是该变量拆分前后 RSS 之间的差异。

    由于变量重要性标准的概念在两种情况下是不同的,因此您对不同的变量有不同的排名。

    没有固定的标准来选择变量重要性的“最佳”度量,这取决于您手头的问题。

    【讨论】:

      猜你喜欢
      • 2017-01-13
      • 2014-08-02
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-12-12
      • 2017-01-22
      • 2019-09-05
      • 2016-08-10
      相关资源
      最近更新 更多