【问题标题】:cv.glm Issue with missing factors in Rcv.glm R 中缺少因子的问题
【发布时间】:2013-06-05 21:28:16
【问题描述】:

我正在使用 R 中引导库的 cv.glm 交叉验证程序测试逻辑回归的性能。

我的一些预测变量是因子。

当我运行它时,我收到以下错误消息:

Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels)
factor color has new levels RED

我想我理解这个问题。可能是我在不存在某些水平的因子变量的观察子集上训练回归模型。如果这个模型后来被用于新的观察,包括预测变量的看不见的水平,那么它不知道如何表现。

因为这在我看来像是一个基本的 CV 问题,我很惊讶我没有在库文档中找到任何提及。

我将不胜感激任何指针。

【问题讨论】:

  • 感谢您的评论。为了清楚起见,您建议使用 ipred 包而不是引导库来进行错误估计?

标签: r cross-validation logistics


【解决方案1】:

正如我在评论中提到的,这是直接来自 ipred 包中 ?errorest 的示例:

#cv of a fixed partition of the data
list.tindx <- list(1:100, 101:200, 201:300, 301:400, 401:500,
        501:600, 601:700, 701:768)

errorest(diabetes ~ ., data=PimaIndiansDiabetes, model=lda,
          estimator = "cv", predict = mypredict.lda,
          est.para = control.errorest(list.tindx = list.tindx))

因此,您可以指定要使用的自己的 cv 折叠,并确保它们充分平衡以避免任何单个折叠中缺少因子水平。

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2017-08-02
    • 1970-01-01
    • 1970-01-01
    • 2017-05-26
    • 2020-07-23
    • 2011-06-02
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多