【问题标题】:R packages/models that can handle NA's可以处理 NA 的 R 包/模型
【发布时间】:2012-01-17 15:21:02
【问题描述】:

我正在寻找可以处理 NA 的 R 包或机器学习模型/算法,例如 randomForestglmnetgbdt 等,而不是忽略具有任何 NA 实例的行或列。我不想推卸责任。有什么建议吗?

【问题讨论】:

    标签: r random-forest glmnet cart-analysis c4.5


    【解决方案1】:

    CART 算法相当无缝地处理 NA(rpart 包)。然后您可以随时使用rpart 转向bagged trees,可能是通过ipred 包。

    我听说多元自适应回归样条(mda 包中的mars)可以很好地处理丢失的数据,尽管我没有太多经验。

    此外,k 个最近邻模型(我认为更普遍的内核方法)可以被更改以以一种相当直接的方式处理缺失值,但实现可能不会开箱即用。但大概就像调整距离度量以仅考虑成对完整案例一样简单。我不太熟悉比 vanilla knn 模型做得更多的特定 R 包。

    【讨论】:

    • 对于 kNN,“调整距离度量以仅考虑成对的完整情况”将是一团糟:对于有 NA 和无 NA 的情况,距离的计算方式会有所不同,并且不具有可比性。尤其是当每个距离分量都被加权时。
    猜你喜欢
    • 2012-07-17
    • 1970-01-01
    • 2023-01-19
    • 2017-08-28
    • 2017-06-23
    • 1970-01-01
    • 2022-01-04
    • 2020-01-25
    • 1970-01-01
    相关资源
    最近更新 更多