【发布时间】:2017-01-11 18:07:08
【问题描述】:
我想以特定方式引导以下生存数据(“mydata”;这只是完整数据集的一个样本):
cup surv
100-9 0
100-9 0
100-9 1
100-9 1
101-9 0
101-9 0
101-9 0
101-9 0
51-1 0
51-1 1
51-1 1
51-1 1
每一行都是一个人,要么活着(surv="1"),要么死去(surv="0")。个体每杯聚集四个。我希望引导程序的每次迭代都只从每个杯子中抽取一个随机个体,而不是更多,并估计平均值和标准差。下一次迭代将再次对每个杯子采样一个个体,这可能与第一次迭代中采样的个体相同,也可能不同。
到目前为止,我只成功地在所有杯子中随机抽样并替换,因此每次迭代可能会计算来自同一个杯子的两个不同的个体,而从另一个杯子中抽样为零。这是代码:
library(boot)
surv.mean = function(x, indices) {
return( mean( x[indices] ) )
}
surv.boot <- boot(mydata$surv, surv.mean, 10000)
boot.ci(surv.boot)
我不认为聚类分析是正确的方法,我认为这是嵌套子采样(有限制?)。如果您有有用的提示,请告诉我!
谢谢。
附:对于额外的精彩点,如何使用逻辑回归[最好使用 glm(, family = binomial)] 对组之间的自举生存估计进行建模,例如:
group cup surv
A 100-9 0
A 100-9 0
A 100-9 1
A 100-9 1
B 101-9 0
B 101-9 0
B 101-9 0
B 101-9 0
C 51-1 0
C 51-1 1
C 51-1 1
C 51-1 1
【问题讨论】:
标签: r