【发布时间】:2018-08-19 10:41:30
【问题描述】:
我使用以下代码在 R 上生成了一个(未修剪的)分类树:
fit <- rpart(train.set$line ~ CountryCode + OrderType + Bon + SupportCode + prev_AnLP + prev_TXLP + prev_ProfLP + prev_EVProfLP + prev_SplLP + Age + Sex + Unknown.Position + Inc + Can + Pre + Mol, data=train.set, control=rpart.control(minsplit=5, cp=0.001), method="class")
printcp(fit) 显示:
树构造中实际使用的变量:
年龄
国家代码
支持代码
订单类型
上一页_AnLP
上一页_EVProfLP
上一页_ProfLP
上一页_TXLP
prev_SplLP
这些是我可以在分类树的每个节点上看到的相同变量,因此它们是正确的。 我不明白的是summary(fit)的结果:
变量重要性:
29 上一页_EVProfLP
19 上一页_AnLP
16 上一页_TXLP
15 上一页_SplLP
9 上一页_ProfLP
7 国家代码
2 订单类型
1 前
1 摩尔
从summary(fit)结果来看,变量Pre和Mol似乎比SupportCode和Age更重要,但是在树中Pre和Mol不用于分割数据,而使用了SupportCode和Age(就在两片叶子之前,实际上......但仍然使用!)。 为什么?
【问题讨论】:
-
我试图查看 R 文档,但没有找到答案。
标签: r multiclass-classification