【发布时间】:2021-12-08 22:19:31
【问题描述】:
我有一个包含 10 个分类变量的数据集。其中每一个都有缺失值,编码为 (-9, -6, -3, -2, -1)。我想创建 1 列取这 10 个变量的平均值,不包括负值。我可以将负值折叠到 NA 中,然后对它们进行中值估算,但我需要保留 -6,因为 -6 意味着该人跳过了这个问题,因为它不适用于他们。例如,父母关系质量不适用于单亲父母。我最终想在我的随机森林模型中使用这个变量作为预测变量,所以我不确定在这种情况下如何处理 -6。我能想到的一种方法是将 10 个变量中的每一个进行如下估算(假设 10 个变量是 a1 到 a10):
missing_categs <- c(-9, -3, -2, -1)
df[df$a1%in%missing_categs,]$a1 <- assign median value of a1
经过上述步骤,我计算了 a1 到 a10 的平均值。产生“-6”的那些是属于单亲父母的(这意味着它不适用于他们)。然后,我将 -6 转换为 NA。所以,现在我有平均值和一个 NA。 rpart 和随机森林模型可以处理 NA 吗?其他更好的替代解决方案是最受欢迎的。提前致谢!
【问题讨论】:
标签: r random-forest