如何使用 Amelia 描述多重插补后的数据（我应该使用哪个数据集）？答案

【问题标题】：How to describe data after multiple imputation using Amelia (which dataset should I use)?如何使用 Amelia 描述多重插补后的数据（我应该使用哪个数据集）？
【发布时间】：2019-08-29 13:20:08
【问题描述】：

我使用以下代码使用 Amelia 进行了多重插补

binary<- c("Gender",  "Diabetes")
exclude.from.IMPUTATION<-c( "Serial.ID")
NPvars<- c("age",  "HDEF","BMI")#a skewed (non-parametric variable

a.out <- Amelia::amelia(x = for.imp.data,m=10,
                idvars=exclude.from.IMPUTATION,
                noms = binary, logs =NPvars)
summary(a.out)

## save imputed datasets ##
Amelia::write.amelia(obj=a.out, file.stem = "impdata", format = "csv")

我有 10 个不同的输出数据 csv 文件（如下图所示）

我知道我可以使用其中任何一个来进行描述性分析，如之前的questions 所示，但是

如果我们将使用任何 SINGLE 文件，为什么我们应该进行 MULTIPLE imputation 他们呢？
一些作者报告使用鲁宾规则进行总结如here 所示的估算，请就如何做到这一点提出建议。

【问题讨论】：

您的不同数据集表达了插补的不确定性。你不应该只使用其中一个，那是错误的。您需要通过考虑方差内和方差之间来汇集您的回归。使用您可以在以下网址找到的 Rubin 规则编写代码：Rubin, Donald B. 1987. Multiple Imputation for Nonresponse in Surveys。纽约：Wiley。 在第 76 页。如果您喜欢自动化，在 mice 包中，该过程由 mice::pool() function 为 lm() 实施。（也许它也在Amelia 中实现——我不知道。）
这个问题似乎更多是关于统计而不是编程。此类问题最好在 [stat.se] 提出统计问题。

标签： r imputation summarize

【解决方案1】：

您不只使用这些数据集之一。正如你所说的那样，多重插补的整个过程将毫无用处。

正如 jay.sf 所说，不同的数据集表达了插补的不确定性。丢失的数据最终会丢失——我们只能估计真实数据的样子。通过多重插补，我们生成多个估计，真实数据可能是什么样子。总的来说，这可以用来说：丢失的数据很可能位于 ... 和 ... 之间。

当您生成描述性统计数据时，您会为每个估算数据集分别生成这些数据。例如查看平均值，然后您可以例如提供这些估算数据集的最低均值和最高均值作为附加信息。您可以提供这些平均值的平均值以及插补数据集平均值的标准差。这样，您的读者就会知道估算带来了多少不确定性。

您还可以使用估算数据集来描述线性模型输出的不确定性。为此，您可以使用鲁宾规则 (RR) 来汇集参数估计值，例如均值差、回归系数、标准误差，并得出置信区间和 p 值。（另见https://bookdown.org/mwheymans/bookmi/rubins-rules.html）

【讨论】：