无法运行插入符号 xgboost 分类答案

【问题标题】：Unable to run caret xgboost classification无法运行插入符号 xgboost 分类
【发布时间】：2019-11-24 08:35:19
【问题描述】：

我尝试使用 xgboost 对虹膜数据进行分类，但遇到了这个错误。

"frankv(predicted) 中的错误：x 是一个列表，'cols' 不能是 0 长度另外：警告信息：在 train.default(x_train, y_train, trControl = ctrl, tuneGrid = xgbgrid, : 无法计算回归的类别概率”

我正在使用以下代码。任何帮助或解释将不胜感激。

data(iris)
library(caret)
library(dplyr)
library(xgboost)

set.seed(123)
index <- createDataPartition(iris$Species, p=0.8, list = FALSE)
trainData <- iris[index,]
testData <- iris[-index,]


x_train = xgb.DMatrix(as.matrix(trainData %>% select(-Species)))
y_train = as.numeric(trainData$Species)



#### Generic control parametrs
ctrl <- trainControl(method="repeatedcv", 
                    number=10, 
                    repeats=5,
                    savePredictions=TRUE, 
                    classProbs=TRUE,
                    summaryFunction = twoClassSummary)

xgbgrid <- expand.grid(nrounds = 10,
                    max_depth = 5,
                    eta = 0.05,
                    gamma = 0.01,
                    colsample_bytree = 0.75,
                    min_child_weight = 0,
                    subsample = 0.5,
                    objective = "binary:logitraw",
                    eval_metric = "error")


set.seed(123)
xgb_model = train(x_train, 
                y_train,  
                trControl = ctrl,
                tuneGrid = xgbgrid,
                method = "xgbTree")

【问题讨论】：

看看this。
看看这一行：y_train = as.numeric(trainData$Species)。同样使用 twoClassSummary 函数也不合适，因为 Species 具有三个级别。修复这两个，你就可以开始了。请改用multiClassSummary。此注释中的函数可能大小写不正确（小写/大写）。
感谢您在类摘要中识别错误，但是，我尝试通过 y_train
只使用as.factor 而不是as.factor(as.numeric()) 尽管物种已经是鸢尾花数据集中的一个因素，不需要这样做。我运行它没有问题，没有使用你的调子网格，也停止了训练，因为这需要很多时间，但无论如何它都会起作用。
是的，现在它运行了，但是没有结果出来（使用网格和不使用网格都试过）-----出了点问题；缺少所有准确度指标值：logLoss AUC prAUC Accuracy Kappa Mean_F1 Mean_Sensitivity Mean_Specificity Min。 : NA 分钟。 :0.5 分钟。 : NA 分钟。 : NA 分钟。 : NA 分钟。 : NA Min.... 全部 NA

标签： r r-caret xgboost

【解决方案1】：

有几个问题：

结果变量应该是一个因素。
调谐网格具有插入符号调谐网格未使用的参数。
由于存在三个级别，因此使用两个级别的摘要是不合适的。多类摘要与summaryFunction = multiClassSummary 一起使用。

一个工作示例：

data(iris)
library(caret)
library(dplyr)
library(xgboost)
    set.seed(123)
index <- createDataPartition(iris$Species, p=0.8, list = FALSE)
trainData <- iris[index,]
testData <- iris[-index,]


x_train = xgb.DMatrix(as.matrix(trainData %>% select(-Species)))
y_train = as.factor(trainData$Species)



#### Generic control parametrs
ctrl <- trainControl(method="repeatedcv", 
                     number=10, 
                     repeats=5,
                     savePredictions=TRUE, 
                     classProbs=TRUE,
                     summaryFunction = multiClassSummary)

xgbgrid <- expand.grid(nrounds = 10,
                       max_depth = 5,
                       eta = 0.05,
                       gamma = 0.01,
                       colsample_bytree = 0.75,
                       min_child_weight = 0,
                       subsample = 0.5)


set.seed(123)
x_train 
xgb_model = train(x_train, 
                  y_train,  
                  trControl = ctrl,
                    method = "xgbTree",
                  tuneGrid = xgbgrid)
xgb_model

【讨论】：