【发布时间】:2021-03-25 20:47:28
【问题描述】:
我目前正在为特定数据集运行 LASSO 模型。在 17 个不同的模型中发现了数百个变量,我想看看在多少个模型中找到了一个特定的变量。我认为在 R 中做到这一点的最好方法是创建一个箱线图,其中一个轴上的变量名称和它们出现在另一个轴上的次数。但是,由于存在变量的数量,该图的可读性不是很高。这是它目前的样子:
这是我为创建情节而编写的代码:
dt1 %>% ggplot(aes(y=reorder(Variable_Name,-desc(n)),x=n)) + geom_bar(stat="identity",
width=.5,color="black",fill="grey") +
scale_x_continuous(name = "Count",breaks = c(0,1,2,3,4,5)) + ylab(NULL)
所以我认为条形图不是呈现这些信息的最佳方式。有没有人对使用什么来更好地可视化数据有任何建议?维恩图在这种情况下效果最好吗?
编辑:
【问题讨论】:
-
想法:(1)忘记图表,将结果呈现在按计数排序的表格中。 (2) 使用色彩增强表。我将使用
rpivotTable创建一个表格,其中包含变量和计数列,并添加了表格条形图或热图。 (3) 类似于 Treemap 的东西,其中一个框列出 Count 为 5 的所有变量,另一个框列出 Count 为 4 的变量,依此类推。
标签: r ggplot2 data-visualization lasso-regression