【问题标题】:Gibberish Output in RPart plot in RR中的RPart图中的乱码输出
【发布时间】:2015-10-01 08:13:25
【问题描述】:

我正在尝试在 R 中使用 RPart 在具有 26 个变量的数据集上运行决策树,以将结果分类为 0 或 1。该模型的准确率为 81%,当我继续绘制时树,我得到非常乱码的变量拆分值。例如:v10 包含一个国家列表,比如美国、英国、印度等,但这里显示的情节是一些无意义的值。 v7 这里是一个 URL 列表,v12 是我数据集中的一些量化数字,但是树值看起来搞砸了。

【问题讨论】:

  • 你能举一个可重现的例子来证明这一点吗?

标签: r decision-tree rpart


【解决方案1】:

该算法用字母表中的大小写字母替换每个因子的级别。如果一个因子中有超过 56 个水平,则 Z 字母会重复,因此不建议使用超过 56 个水平的因子作为 rpart 模型的输入。

但是,可以避免不必要的“乱码”输出:如果您使用的是 plot() + text(),请尝试在 text() 函数中使用“pretty”参数。示例:

plot(tree)
text(tree, pretty=1)

其他输出函数有其特定的参数。例如,“labels()”具有“minlength”参数:

labels(tree)
labels(tree,minlength=0)

希望对你有帮助。

【讨论】:

  • 感谢 Daniel,它给了我每个节点的实际值。
猜你喜欢
  • 2021-04-07
  • 2023-03-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2016-10-08
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多