【发布时间】:2014-11-14 14:37:24
【问题描述】:
有时将具有分类列的数据框拆分为测试集和训练集时,训练集不会包含分类变量的所有级别。然后,当您训练模型并尝试预测测试集时,预测将失败:
例如:
x <- data.frame(...) # data frame with columns with very dispersed categorical variables
set.seed(123)
smp_size <- floor(0.75 * nrow(x))
train_idx <- sample(seq_len(nrow(x)), size = smp_size)
train_set <- x[train_idx, ]
test_set <- x[-train_idx, ]
m <- lm(some_formula, data=train_set)
predict(m, newdata=test_set)
Error in model.frame.default(Terms, newdata, na.action = na.action, xlev = object$xlevels) :
factor xxxx has new levels yyy ...
有谁知道将训练集中和测试集中所有分类变量的水平设置为原始数据集中水平的便捷方法?
谢谢。
【问题讨论】:
标签: r categorical-data