【发布时间】:2015-01-11 14:20:57
【问题描述】:
我有一个包含NAs 的数据集。
此外,它还有需要为factors() 的列。
我正在使用caret 包中的rfe() 函数来选择变量。
似乎rfe() 中使用lmFuncs 的functions= 参数适用于具有NA 但不适用于因子变量的数据,而rfFuncs 适用于因子变量但不适用于NA。
对处理这个有什么建议吗?
我尝试了model.matrix(),但它似乎只会导致更多问题。
【问题讨论】:
-
我怀疑
lmFuncs会因某些变量而失败。不过,我可以用一个可重复的例子来说服我。随机森林(默认情况下)不接受带有 NA 的案例这一事实只是该算法(或至少是它的 R 版本)的一个有据可查的“特征”。如果您想要无缝处理 NA 的基于树的模型,treebagFuncs可能是更安全的选择(但我还没有测试过)。