【发布时间】:2016-07-04 02:32:19
【问题描述】:
我正在使用 R(和 Rstudio)使用 caret 包中的 rf 训练模型。训练数据集是一个有 76k 行和 291 列的数据框。我的代码如下:
library(caret)
myTrControl <- trainControl(method = "repeatedcv",
number = 5,
repeats = 3,
p = 0.75,
classProbs = TRUE,
summaryFunction = twoClassSummary)
set.seed(64)
myRF <- train(x = myTrain[ , -c(1, 291)],
y = myTrain$TARGET,
data = myTrain,
method = "rf",
metric = "ROC",
maximize = TRUE,
trControl = myTrControl)
它已经运行了 24 小时。有什么方法可以估计需要多长时间?
我阅读了caret 文档,我可能应该在trainControl 中设置verboseIter = TRUE 以获取一些关于它计算时发生了什么的信息。我想没有“同时计算”的方式来请求进度信息,对吧?
第三个问题:trainControl 和 train 中是否还有其他参数可以让我在计算过程中经常使用这些参数来获取计算信息?
谢谢!
【问题讨论】:
-
Sessioninfo() 对区分问题更有帮助。您的功能集非常大,您可能想做一些feature selection。如果您准备使用所有这些功能,可以在随机森林中尝试rfcv function。虽然,我仍然相信如果没有功能选择,这将需要一段时间。干杯,科迪
-
谢谢科迪。我进行了特征选择以降低到这个数字,但确实如此,我仍然可以从
randomForest包中应用rfcv来进行特征选择。
标签: r random-forest r-caret