【发布时间】:2012-01-17 15:21:02
【问题描述】:
我正在寻找可以处理 NA 的 R 包或机器学习模型/算法,例如 randomForest、glmnet、gbdt 等,而不是忽略具有任何 NA 实例的行或列。我不想推卸责任。有什么建议吗?
【问题讨论】:
标签: r random-forest glmnet cart-analysis c4.5
我正在寻找可以处理 NA 的 R 包或机器学习模型/算法,例如 randomForest、glmnet、gbdt 等,而不是忽略具有任何 NA 实例的行或列。我不想推卸责任。有什么建议吗?
【问题讨论】:
标签: r random-forest glmnet cart-analysis c4.5
CART 算法相当无缝地处理 NA(rpart 包)。然后您可以随时使用rpart 转向bagged trees,可能是通过ipred 包。
我听说多元自适应回归样条(mda 包中的mars)可以很好地处理丢失的数据,尽管我没有太多经验。
此外,k 个最近邻模型(我认为更普遍的内核方法)可以被更改以以一种相当直接的方式处理缺失值,但实现可能不会开箱即用。但大概就像调整距离度量以仅考虑成对完整案例一样简单。我不太熟悉比 vanilla knn 模型做得更多的特定 R 包。
【讨论】: