【发布时间】:2020-09-01 23:35:18
【问题描述】:
我有以下 1,000 行的数据框; 10 个城市,每个城市有 100 行,我想在城市中按年份随机选择 10 个名称,并且选择的 10 个样本名称应该来自城市中至少一个年份,即城市 1 的 10 个名称不应该出现例如,仅从 1996 年开始。
City Year name
1 1 1996 b
2 1 1996 c
3 1 1997 d
4 1 1997 e
...
101 2 1996 f
102 2 1996 g
103 2 1997 h
104 2 1997 i
所需的最终样本数据
City Year name
1 1 1996 b
2 1 1998 c
3 1 2001 d
...
11 2 1997 g
12 2 1999 h
13 2 2005 b
...
21 3 1998 a
22 3 2010 c
23 3 2005 d
样本数据
df1 <- data.frame(City = rep(1:10, each = 100),
Year = rep(1996:2015, each = 5),
name = rep(letters[1:25], 40))
我未能按年份随机选择所有 10 个城市的 10 个样本名称(不重复年份 - 除非一个城市的年份少于 10 个),我该如何检查?
最终样本应该有每个城市的 10 个名称,并且年份不应重复,除非该城市的名称少于 10 个。
谢谢。
【问题讨论】: