【发布时间】:2017-12-25 22:25:18
【问题描述】:
我正在尝试使用 R 中的替换从数据表中引导组。
这是数据表的例子:
dat = data.table('n'=c(1,1,1,2,2,2,2,3,4,4,4,4,4),'y'=round(rnorm(13,0,1),1))
n y
1: 1 -0.8
2: 1 0.5
3: 1 -0.1
4: 2 0.2
5: 2 -0.1
6: 2 -2.7
7: 2 0.1
8: 3 0.3
9: 4 -0.7
10: 4 -0.2
11: 4 1.2
12: 4 1.2
13: 4 -0.1
一个自举样本随机抽取 4 组“n”,所以结果可能是这样的(在这个实现中,第 1,4 组被抽取,第 3 组被抽取两次):
n y
1: 4 -0.7
2: 4 -0.2
3: 4 1.2
4: 4 1.2
5: 4 -0.1
6: 3 0.3
7: 3 0.3
8: 1 -0.8
9: 1 0.5
10: 1 -0.1
但是,我的问题是,现在如果我按“n”分组,它认为第 6 行和第 7 行是同一个组,而实际上它们是重新采样的版本,所以我想区别对待它们,例如,通过添加第三列写着“这是从 3 中提取的第二个组”(例如 3.1 和 3.2)或完成此任务的东西。
【问题讨论】:
标签: r data.table statistics-bootstrap