【发布时间】:2021-06-28 16:01:56
【问题描述】:
我有一个包含两列 idunique 和 match_no 的数据集
此处可重现的示例
idunique <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
match_no <- c(1, 1, 1, 1, 2, 2, 3, 3, 4, 5)
df <- data.frame(idunique, match_no)
idunique match_no
1 1
2 1
3 1
4 1
5 2
6 2
7 3
8 3
9 4
10 5
我需要从数据库中随机抽取 match_no 的出现次数,并提取 x 次唯一出现的次数。
示例输出将是基于随机抽样的match_noidunique 的随机子集
idunique match_no
1 1
5 2
7 3
9 4
10 5
真正的数据库有 600 万行长,每个 match_no 有约 2000 个重复项,因此我需要能够更改样本大小的解决方案。
【问题讨论】:
-
df %>% group_by(match_no) %>% sample_n(1)其中 1 是样本大小。见dplyr.tidyverse.org/reference/sample.html
标签: r data.table tidyverse plyr sample