【发布时间】:2015-04-15 04:05:57
【问题描述】:
我一直在阅读一篇关于随机森林的文章,在缺失值替换部分 (https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#missing1) 他们说:
如果第 m 个变量不是分类变量,则该方法计算该变量在 j 类中的所有值的中位数,然后使用该值替换 j 类中第 m 个变量的所有缺失值。
这不会破坏整个过程吗?如果某些列中的大多数值都丢失了,那么在此过程之后,新值可以用于轻松识别类,并且生成的分类器将无用。我在这里遗漏了什么吗?
【问题讨论】:
标签: machine-learning random-forest missing-data