【发布时间】:2021-07-23 07:40:59
【问题描述】:
我有一个包含大约 167k 行的大型数据集。我想抽取 2000 行的样本,同时确保我从数据中两列 (id & quality) 的所有组中获取行。
这是数据的快照
df <- data.frame(id=c(1,2,3,4,5,1,2),
quality=c("a","b","c","d","z","g","t"))
df %>% glimpse()
Rows: 7
Columns: 2
$ id <dbl> 1, 2, 3, 4, 5, 1, 2
$ quality <chr> "a", "b", "c", "d", "z", "g", "t"
因此,我需要确保采样数据包含来自这两个组列的所有组合的行。 希望有人能帮忙。
谢谢!
【问题讨论】:
-
如果id&quality的组合数大于2000会怎样?
-
您能否选择一个答案,以便我们结束这个问题?