【发布时间】:2018-11-19 05:44:15
【问题描述】:
如果我将随机森林模型应用于 R 中的训练集,
forest = randomForest(y ~ ., data = dat)
pred1 = predict(forest, newdata = dat)
pred2 = forest$predicted
第二行和第三行是同一个模型应用于同一个数据集,但为什么它们给出不同的值呢?
pred1用于与真实响应值进行比较并计算训练集的RMSE;而pred2 用于与真实响应值进行比较并计算测试集的 RMSE(out-of-bagging 误差)?
谢谢!
【问题讨论】:
-
不要将
predict(forest, newdata=training_data)用于随机森林。这将扭曲模型的准确性。
标签: r random-forest