R中的RPart图中的乱码输出

【问题标题】：Gibberish Output in RPart plot in RR中的RPart图中的乱码输出
【发布时间】：2015-10-01 08:13:25
【问题描述】：

我正在尝试在 R 中使用 RPart 在具有 26 个变量的数据集上运行决策树，以将结果分类为 0 或 1。该模型的准确率为 81%，当我继续绘制时树，我得到非常乱码的变量拆分值。例如：v10 包含一个国家列表，比如美国、英国、印度等，但这里显示的情节是一些无意义的值。 v7 这里是一个 URL 列表，v12 是我数据集中的一些量化数字，但是树值看起来搞砸了。

【问题讨论】：

你能举一个可重现的例子来证明这一点吗？

标签： r decision-tree rpart

【解决方案1】：

该算法用字母表中的大小写字母替换每个因子的级别。如果一个因子中有超过 56 个水平，则 Z 字母会重复，因此不建议使用超过 56 个水平的因子作为 rpart 模型的输入。

但是，可以避免不必要的“乱码”输出：如果您使用的是 plot() + text()，请尝试在 text() 函数中使用“pretty”参数。示例：

plot(tree)
text(tree, pretty=1)

其他输出函数有其特定的参数。例如，“labels()”具有“minlength”参数：

labels(tree)
labels(tree,minlength=0)

希望对你有帮助。

【讨论】：

感谢 Daniel，它给了我每个节点的实际值。