【发布时间】:2019-08-29 13:20:08
【问题描述】:
我使用以下代码使用 Amelia 进行了多重插补
binary<- c("Gender", "Diabetes")
exclude.from.IMPUTATION<-c( "Serial.ID")
NPvars<- c("age", "HDEF","BMI")#a skewed (non-parametric variable
a.out <- Amelia::amelia(x = for.imp.data,m=10,
idvars=exclude.from.IMPUTATION,
noms = binary, logs =NPvars)
summary(a.out)
## save imputed datasets ##
Amelia::write.amelia(obj=a.out, file.stem = "impdata", format = "csv")
我有 10 个不同的输出数据 csv 文件(如下图所示)
我知道我可以使用其中任何一个来进行描述性分析,如之前的questions 所示,但是
如果我们将使用任何 SINGLE 文件,为什么我们应该进行 MULTIPLE imputation 他们呢?
一些作者报告使用鲁宾规则进行总结 如here 所示的估算,请就如何做到这一点提出建议。
【问题讨论】:
-
您的不同数据集表达了插补的不确定性。你不应该只使用其中一个,那是错误的。您需要通过考虑方差内和方差之间来汇集您的回归。使用您可以在以下网址找到的 Rubin 规则编写代码:Rubin, Donald B. 1987. Multiple Imputation for Nonresponse in Surveys。纽约:Wiley。 在第 76 页。如果您喜欢自动化,在
mice包中,该过程由mice::pool()function 为lm()实施。 (也许它也在Amelia中实现——我不知道。) -
这个问题似乎更多是关于统计而不是编程。此类问题最好在 [stat.se] 提出统计问题。
标签: r imputation summarize