【发布时间】:2016-02-02 15:19:44
【问题描述】:
我正在努力处理来自 R 中 data.frame 的数据请求,其中包含一个表格,其中包含俱乐部、他们的 ID、他们成立的年份、他们所属地区的 ID 以及他们所在的年份关闭。 data.frame dat 看起来像
club_id founded district_id closed
1 2012 1 NA
2 2012 2 2014
3 2013 2 NA
4 2013 3 2014
...
closed 列中的NA 表示该俱乐部在当年(2016 年)仍然存在。
我想要的是每年仍然存在的俱乐部的数量,例如,这将为我提供上面的数据 sn-p:
2012 2013 2014 ...
2 4 2 ...
我尝试使用dplyr
dat %>%
group_by(founded) %>%
summarise(clubs_per_year = n_distinct(club_id))
但是,这给我的只是每年新成立的俱乐部的数量,而不是每年现有俱乐部的总数。
【问题讨论】:
-
如果一个俱乐部只存在一年,它就不会出现在你的统计中,这是你想要的吗?
-
是的,这就是我想要的。谢谢!
-
您是否也希望 2016 年也包含在结果中?因为一些俱乐部可能在年底之前仍然关闭。请在答案下方提供一些反馈,因为似乎每个人都得到了不同的结果。
-
不,不应包括 2016 年。只是过去几年。
-
好的,那就回滚到原来的版本。