【发布时间】:2016-10-10 14:26:33
【问题描述】:
** 编辑是因为我是个傻瓜 - 有替换,而不是没有 **
我有一个包含 421 个组的大型(>500k 行)数据集,由两个分组变量定义。样本数据如下:
df<-data.frame(group_one=rep((0:9),26), group_two=rep((letters),10))
head(df)
group_one group_two
1 0 a
2 1 b
3 2 c
4 3 d
5 4 e
6 5 f
...等等。
我想要的是一些分层样本的数量(目前 k = 12,但该数量可能会有所不同),通过 (group_one x group_two) 的成员资格。每个组中的成员资格应由一个新列 sample_membership 指示,该列的值从 1 到 k(同样,目前为 12)。我应该能够按 sample_membership 进行子集化,并获得多达 12 个不同的样本,在考虑 group_one 和 group_two 时,每个样本都具有代表性。
因此,最终数据集看起来像这样:
group_one group_two sample_membership
1 0 a 1
2 0 a 12
3 0 a 5
4 1 a 5
5 1 a 7
6 1 a 9
想法?提前非常感谢!
【问题讨论】:
-
您的标题说“无需替换”,但您的问题没有提及。您是否想要无替换抽样(并且您保证每个分组
-
这是一个错误。绝对应该有替换。很抱歉给您带来了困惑。
-
随时编辑您的问题标题以更正错误。