【发布时间】:2021-06-28 07:26:21
【问题描述】:
我有一个包含超过 150,000 个条目的数据框。示例如下:
ID <- 1111, 1222, 3333, 4444, 1555, 6666
V1 <- 1, 0, 1, 0, 0, 0
V2 <- 1, 0, 0, 0, 0, 1
V3 <- 0, 1, 1, 0, 0, 1
V4 <- 1, 0, 1, 1, 0, 0
AgeGr <- 15-24,24-35,15-24,35-48, 48+, 35-48
所有变量(示例中的 V1-V4)都是以 0/1 回答的二分题。现在我想总结一下年龄组中每个变量的 0/1 发生率。我期望这样的输出:
Variable V1 V2 V3 V4 # Variale names
Answer 0 1 0 1 0 1 0 1 # answer levels (1/0)
15-24 0 2 1 1 1 1 0 2 # the frequency of "0" and "1" under this age group
24-35 1 0 1 0 0 1 1 0
35-48 2 0 1 1 1 1 0 1
48+ 1 0 1 0 1 0 1 0
我尝试过使用 tabyl(df,AgeGr, V1) 的 janitor::tabyl。然而,它只在一行中总结了 V1。 当我尝试 tabyl(df,AgeGr, df[,V1:V4]) 时,它失败了。我想知道我是否可以使用 tabyl() 并使用 apply() 之类的函数?还是我应该转向别的东西?
我们将不胜感激任何建议。提前谢谢你:)
【问题讨论】:
-
你能分享一个可重现的例子吗?