了解 sunburstR 行为答案

【问题标题】：Understanding sunburstR behaviour了解 sunburstR 行为
【发布时间】：2016-09-28 00:05:00
【问题描述】：

我有一个类似于此示例的data.frame：

> head(dd)
#  paths counts
#1     s   4735
#2    dt   4635
#3    so   2191
#4    sb   1949
#5 dt-dt   1310
#6   s-s    978

路径中的不同步骤由- 分隔。如您所见，有些路径的长度为 1，有些则 > 1 步（示例中最多为 5 步）。

现在我想使用sunburstR 包将数据可视化为sunburst 图。我是这样做的：

# devtools::install_github("timelyportfolio/sunburstR")
library(sunburstR)
sunburst(dd)

不幸的是，这不会产生任何输出，我不明白为什么。作为另一个示例，这可以按预期工作：

sunburst(tail(dd, 8))

但这不是：

sunburst(tail(dd, 9))

我也注意到了

sunburst(dd[c(5, 1:4),])

产生了一个情节，但令人惊讶的是，dt 类别被分成两个块，通常应该在第一层（最内层）显示为一个块。

问：有人可以向我解释为什么会发生这种情况（有些方法有效，有些无效，有些有效，但显示的数据有些不正确）以及我需要做什么来可视化整个数据集（不仅仅是样本数据）？

样本数据

dd <- structure(list(paths = c("s", "dt", "so", "sb", "dt-dt", "s-s", 
"so-dt", "dt-dt-dt", "sb-sb", "so-so", "s-s-s", "s-rd", "dt-dt-dt-dt", 
"s-sb", "a", "so-dt-dt", "s-rd-rd", "r", "dt-s", "so-sb", "dt-sb", 
"s-rd-rd-rd", "dt-rd", "dt-dt-dt-dt-dt", "so-dt-dt-dt"), counts = c(4735L, 
4635L, 2191L, 1949L, 1310L, 978L, 558L, 455L, 324L, 281L, 266L, 
231L, 208L, 200L, 200L, 196L, 156L, 150L, 142L, 129L, 123L, 114L, 
113L, 113L, 100L)), .Names = c("paths", "counts"), class = "data.frame", row.names = c(NA, -25L))

【问题讨论】：

可能是因为双（子）序列而窒息？例如。 s-rd-rd 是 s-rd-rd-rd 的一部分。
@lukeA，谢谢，这可能是真的。我会试着调查一下。但是，对于我的数据而言，s-rd-rd 和 s-rd-rd-rd 仅在前 3 个级别相等但在第 4 个级别不同，因此我不能将它们合并为一个类别
我认为包作者在这种情况下会附加一个额外的-end。
@lukeA，是的，我只是做了同样的事情，一切似乎都正常。想发布答案吗？

标签： r plot sunburst-diagram

【解决方案1】：

dd 包含其他序列的子序列：

tail(dd, 9)
#             paths counts
# 17        s-rd-rd    156 # <-----
# 18              r    150
# 19           dt-s    142
# 20          so-sb    129
# 21          dt-sb    123
# 22     s-rd-rd-rd    114 # <-----
# 23          dt-rd    113
# 24 dt-dt-dt-dt-dt    113
# 25    so-dt-dt-dt    100

例如s-rd-rd 是 s-rd-rd-rd 的一部分。 sunburst 似乎对此感到窒息。在package author's example 中，您会注意到一个额外的 -end 以防止此类情况。 tips here中也提到了这一点：

每一行都应该是从根到叶的完整路径 - 不包括计算中间步骤。例如，包括“home-search-end” 和 "home-search-product-end" 但不是 "home-search" - 后者是由分区布局计算，通过将所有的计数相加带有该前缀的序列。

这似乎也可以解决问题：

transform(tail(dd, 9), paths=paste0(paths, "-end"))
#                 paths counts
# 17        s-rd-rd-end    156
# 18              r-end    150
# 19           dt-s-end    142
# 20          so-sb-end    129
# 21          dt-sb-end    123
# 22     s-rd-rd-rd-end    114
# 23          dt-rd-end    113
# 24 dt-dt-dt-dt-dt-end    113
# 25    so-dt-dt-dt-end    100

sunburst(transform(tail(dd, 9), paths=paste0(paths, "-end")))

【讨论】：

在 github github.com/timelyportfolio/sunburstR/issues/21 上对非常相似的问题进行一些额外的讨论