R中的分层引导答案

【问题标题】：Hierarchical bootstrapping in RR中的分层引导
【发布时间】：2017-01-11 18:07:08
【问题描述】：

我想以特定方式引导以下生存数据（“mydata”；这只是完整数据集的一个样本）：

每一行都是一个人，要么活着（surv="1"），要么死去（surv="0"）。个体每杯聚集四个。我希望引导程序的每次迭代都只从每个杯子中抽取一个随机个体，而不是更多，并估计平均值和标准差。下一次迭代将再次对每个杯子采样一个个体，这可能与第一次迭代中采样的个体相同，也可能不同。

到目前为止，我只成功地在所有杯子中随机抽样并替换，因此每次迭代可能会计算来自同一个杯子的两个不同的个体，而从另一个杯子中抽样为零。这是代码：

library(boot)
surv.mean = function(x, indices) {
return( mean( x[indices] ) )
}
surv.boot <-  boot(mydata$surv, surv.mean, 10000)
boot.ci(surv.boot)

我不认为聚类分析是正确的方法，我认为这是嵌套子采样（有限制？）。如果您有有用的提示，请告诉我！

谢谢。

附：对于额外的精彩点，如何使用逻辑回归[最好使用 glm(, family = binomial)] 对组之间的自举生存估计进行建模，例如：

group cup   surv
A     100-9 0
A     100-9 0
A     100-9 1
A     100-9 1
B     101-9 0
B     101-9 0
B     101-9 0
B     101-9 0
C     51-1  0
C     51-1  1
C     51-1  1
C     51-1  1

【问题讨论】：

标签： r

【解决方案1】：

使用dplyr：

library(dplyr)
subsample <- mydata %>%
                group_by(cup) %>%
                sample_n(1)

【讨论】：