【发布时间】:2014-04-11 19:27:12
【问题描述】:
我正在使用 R 中的函数 randomforest() 进行探索,我发现几篇文章都建议使用如下类似的逻辑,其中响应变量是第 30 列,自变量包括除第 30 列之外的所有其他内容:
dat.rf <- randomForest(dat[,-30],
dat[,30],
proximity=TRUE,
mtry=3,
importance=TRUE,
do.trace=100,
na.action = na.omit)
当我尝试这个时,我收到以下错误消息:
randomForest.default(dat[, -30], dat[, 30],proximity = TRUE, : 预测变量中不允许使用 NA 另外:警告信息: 在 randomForest.default(dat[, -30], dat[, 30],proximity = TRUE, : 响应具有五个或更少的唯一值。确定要进行回归吗?
但是,当我一一列出自变量同时保持所有其他参数相同时,我能够让它工作。
dat.rf <- randomForest(as.factor(Y) ~X1+ X2+ X3+ X4+ X5+ X6+ X7+ X8+ X9+ X10+......,
data=dat
proximity=TRUE,
mtry=3,
importance=TRUE,
do.trace=100,
na.action = na.omit)
有人可以帮我调试更简单的命令,我不必一一列出每个预测变量吗?
【问题讨论】:
标签: r machine-learning random-forest