多重插补数据集的 MICE 数量。答案

【问题标题】：MICE number of multiply imputed data sets.多重插补数据集的 MICE 数量。
【发布时间】：2018-05-15 13:38:09
【问题描述】：

关于多重插补数据集“m”的数量的效用，我有多个问题。我的理解是，老鼠会重复m次对数据集中缺失值的填补过程。

1) 老鼠是否考虑了上一步的插补，因此每一步都接近最终收敛，还是每一步完全相互独立？

2) 如果每个步骤彼此独立，那么为了一个插补目的而拥有多个插补数据集有什么意义？

在解释老鼠的论文中，有一个方案显示了多个插补步骤

我想我们拥有的估算数据集越多，最好是在我们想要合并结果时，但是分析结果步骤意味着创建一个预测模型，它可能是：

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

如果我的数据集中没有任何预测列或标签会怎样？事实上，我的数据集包含基因组学测量，它们都是独立的。如何在不经过预测步骤的情况下合并结果，或组合 m 个估算数据集？

最好的，

巴巴

【问题讨论】：

多次插补数据集后，您想进行什么样的分析？如果 pool() 函数不支持您的分析，那么您可以在对每个插补数据集运行分析后使用 Rubin 规则手动合并结果。
我正在分析微阵列数据的不同插补方法，所以我的想法是在我的数据集中随机插入Nan值并检查插补值与真实值之间的距离。这就是为什么我不知道如何处理 m 估算数据集。我应该做一个意思吗？
简而言之，我不确定。多重插补的目的是进行分析并汇总结果，同时还要考虑分析中插补值的不确定性。目的不是最终得到一个正确的完整数据集。取所有插补集的平均值是汇集这些集的一种方式，这与制作一个只有截距的模型并汇集结果相同。另一种方法是分别将估算值与每个估算集中的实际值进行比较，然后汇总这些比较。
好的，非常感谢，确实我对多重插补有一个错误的理解“多重插补提供了一种有用的策略来处理具有缺失值的数据集。而不是为每个缺失填充单个值值，Rubin (1987) 的多重插补程序将每个缺失值替换为一组似是而非的值，这些值表示正确插补值的不确定性。”
没错！

【解决方案1】：

很好，你有这些问题。多重插补经常被误解。它更像是一个关于如何使用缺失数据执行分析的完整概念，而不是只为您提供一个没有缺失值的数据集的算法。

1) 老鼠是否考虑了上一步的插补，因此每一步都接近最终收敛，还是每一步完全相互独立？

不，没有收敛。 m 个插补数据集都没有“更好”的插补值。

2) 如果每个步骤彼此独立，那么为了一个插补目的而拥有多个插补数据集有什么意义？

重点是对插补过程的不确定性进行建模。如果一个推算数据集中的 NA 值被替换为例如只有 5 这绝不是全部真相...更准确的说法可能是这样的：该值可能介于 4 和 6 之间...。

【讨论】：