【问题标题】:Missing value replacement based on class基于类的缺失值替换
【发布时间】:2015-04-15 04:05:57
【问题描述】:

我一直在阅读一篇关于随机森林的文章,在缺失值替换部分 (https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1) 他们说:

如果第 m 个变量不是分类变量,则该方法计算该变量在 j 类中的所有值的中位数,然后使用该值替换 j 类中第 m 个变量的所有缺失值。

这不会破坏整个过程吗?如果某些列中的大多数值都丢失了,那么在此过程之后,新值可以用于轻松识别类,并且生成的分类器将无用。我在这里遗漏了什么吗?

【问题讨论】:

    标签: machine-learning random-forest missing-data


    【解决方案1】:

    生成的分类器不一定没用,它取决于“缺失”的特征(特征值缺失的事件)。如果它在训练集和测试集之间的分布是相同的(这是 ML 中普遍存在的隐含假设),那么它是在做正确的事情。然而,如果存在差异确实是有问题的,例如,如果缺失值是训练数据生成方式的产物并且主要与一个类相关联,而在测试时特征值总是完全已知的。在这种情况下,插补可能会导致错误的结论,尤其是在缺失值的数量很大的情况下。

    【讨论】:

      猜你喜欢
      • 2020-01-04
      • 2021-09-24
      • 1970-01-01
      • 1970-01-01
      • 2018-02-17
      • 2020-08-15
      • 1970-01-01
      相关资源
      最近更新 更多