基于类的缺失值替换答案

【问题标题】：Missing value replacement based on class基于类的缺失值替换
【发布时间】：2015-04-15 04:05:57
【问题描述】：

我一直在阅读一篇关于随机森林的文章，在缺失值替换部分 (https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1) 他们说：

如果第 m 个变量不是分类变量，则该方法计算该变量在 j 类中的所有值的中位数，然后使用该值替换 j 类中第 m 个变量的所有缺失值。

这不会破坏整个过程吗？如果某些列中的大多数值都丢失了，那么在此过程之后，新值可以用于轻松识别类，并且生成的分类器将无用。我在这里遗漏了什么吗？

【问题讨论】：

标签： machine-learning random-forest missing-data

【解决方案1】：

生成的分类器不一定没用，它取决于“缺失”的特征（特征值缺失的事件）。如果它在训练集和测试集之间的分布是相同的（这是 ML 中普遍存在的隐含假设），那么它是在做正确的事情。然而，如果存在差异确实是有问题的，例如，如果缺失值是训练数据生成方式的产物并且主要与一个类相关联，而在测试时特征值总是完全已知的。在这种情况下，插补可能会导致错误的结论，尤其是在缺失值的数量很大的情况下。

【讨论】：