【问题标题】:Gibberish Output in RPart plot in RR中的RPart图中的乱码输出
【发布时间】:2015-10-01 08:13:25
【问题描述】:
我正在尝试在 R 中使用 RPart 在具有 26 个变量的数据集上运行决策树,以将结果分类为 0 或 1。该模型的准确率为 81%,当我继续绘制时树,我得到非常乱码的变量拆分值。例如:v10 包含一个国家列表,比如美国、英国、印度等,但这里显示的情节是一些无意义的值。 v7 这里是一个 URL 列表,v12 是我数据集中的一些量化数字,但是树值看起来搞砸了。
【问题讨论】:
标签:
r
decision-tree
rpart
【解决方案1】:
该算法用字母表中的大小写字母替换每个因子的级别。如果一个因子中有超过 56 个水平,则 Z 字母会重复,因此不建议使用超过 56 个水平的因子作为 rpart 模型的输入。
但是,可以避免不必要的“乱码”输出:如果您使用的是 plot() + text(),请尝试在 text() 函数中使用“pretty”参数。示例:
plot(tree)
text(tree, pretty=1)
其他输出函数有其特定的参数。例如,“labels()”具有“minlength”参数:
labels(tree)
labels(tree,minlength=0)
希望对你有帮助。