如何使用“gbm”中的“adaboost”分布进行有意义的预测？答案

【问题标题】：How to use 'adaboost' distribution in 'gbm' to have a meaningful prediction?如何使用“gbm”中的“adaboost”分布进行有意义的预测？
【发布时间】：2019-06-13 05:05:06
【问题描述】：

所以，这就是发生的事情 - 我有包含以下 9 列的泰坦尼克号数据集：

(i) 幸存 (0/1) [2 个级别]，

(ii) Pclass(1/2/3) [3 个级别]，

(iii) 性别（男/女）[2 级]，

(iv) 年龄（连续变量），

(v) 票价（连续变量），

(vi) 已登船(C/Q/S) [3 个级别]，

(vii) SibSp（连续变量），

(viii) Parch（连续变量），以及

(ix) 头衔（Mr/MsMrs/Master/X）[4 个级别]。

我正在尝试使用R 中的gbm 包从其他八个中预测Survived，我使用以下内容：

fit.gbm = gbm(Survived ~ Age + Fare + SibSp + Parch + Pclass + Titles + Sex + Embarked , data=train , distribution = "adaboost", n.trees=500 , interaction.depth=3 , shrinkage=0.005)

那我用

predd.gbm = predict(fit.gbm , newdata=train , type="response" , n.trees=500)

我不明白我得到了什么，因为 predd.gbm 中的所有内容看起来都像 0.99983 、 0.999974 等。我如何理解我得到的内容以及如何从这个奇怪的 predd 中预测 0/1。 gbm-“概率”，其中每个元素都接近 1？

【问题讨论】：

标签： r gbm adaboost

【解决方案1】：

啊，所以这样做的方法是使用以下方法将 (i) 从因子更改为数字：

train$Survived = as.numeric(train$Survived)

randomForest 知道 Survived 是一个因素，但 gbm 没有！

【讨论】：