【问题标题】:rpart execution in R StudioR Studio 中的 rpart 执行
【发布时间】:2016-10-08 05:00:34
【问题描述】:

我正在研究泰坦尼克号数据集。我正在尝试填写 CABIN 列中的空白。我从 CABIN 列值中提取了第一个字母,然后将它们放在 CABIN_NEW 列中。之后我使用rpart进行预测,但不知何故,每次我运行下面的代码时,R都会花费很多时间(一次还没完成,每次都必须终止它)。

DATAset 有 1309 行,我使用的列在下面的代码中。我使用的系统在 4 GB Ram、i5 处理器和 Window 7 上运行。

combifit  <- rpart(Cabin_New ~ Pclass + Sex + Age + SibSp + Parch + Fare + Embarked + Title
                     + FamilySize + Surname + FamilyID,
                    data = combi[!is.na(combi$Cabin_New),], method = 'class')

【问题讨论】:

    标签: r analytics prediction rpart


    【解决方案1】:

    我看到你使用了很多因子变量。请检查每个因素中存在多少个因素水平。如果这个值很高,比如说姓氏,如果它是 100,那么 R 将不得不为所有其他因素创建 100 个变量等等。所以我的猜测是,由于这些因素变量,rpart 必须研究很多变量,才能决定拆分。因此会花费很多时间。

    还阅读了一些关于rpart.control 的信息,因为 rpart 所做的拆分数量取决于传递给rpart 的参数。例如,cp 就是这样一个参数。其默认值为 0.01。尝试将其值从 0.5 更改为 0.1。类似地使用其他参数,您可能能够更快地运行rpart

    【讨论】:

      猜你喜欢
      • 2018-09-25
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2014-06-16
      • 2015-10-01
      • 2015-08-29
      • 2015-09-18
      • 1970-01-01
      相关资源
      最近更新 更多