【发布时间】:2018-05-15 13:38:09
【问题描述】:
关于多重插补数据集“m”的数量的效用,我有多个问题。我的理解是,老鼠会重复m次对数据集中缺失值的填补过程。
1) 老鼠是否考虑了上一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?
2) 如果每个步骤彼此独立,那么为了一个插补目的而拥有多个插补数据集有什么意义?
我想我们拥有的估算数据集越多,最好是在我们想要合并结果时,但是分析结果步骤意味着创建一个预测模型,它可能是:
#build predictive model
fit <- with(data = imp, lm(y ~ x + z))
如果我的数据集中没有任何预测列或标签会怎样?事实上,我的数据集包含基因组学测量,它们都是独立的。如何在不经过预测步骤的情况下合并结果,或组合 m 个估算数据集?
最好的,
巴巴
【问题讨论】:
-
多次插补数据集后,您想进行什么样的分析?如果
pool()函数不支持您的分析,那么您可以在对每个插补数据集运行分析后使用 Rubin 规则手动合并结果。 -
我正在分析微阵列数据的不同插补方法,所以我的想法是在我的数据集中随机插入Nan值并检查插补值与真实值之间的距离。这就是为什么我不知道如何处理 m 估算数据集。我应该做一个意思吗?
-
简而言之,我不确定。多重插补的目的是进行分析并汇总结果,同时还要考虑分析中插补值的不确定性。目的不是最终得到一个正确的完整数据集。取所有插补集的平均值是汇集这些集的一种方式,这与制作一个只有截距的模型并汇集结果相同。另一种方法是分别将估算值与每个估算集中的实际值进行比较,然后汇总这些比较。
-
好的,非常感谢,确实我对多重插补有一个错误的理解“多重插补提供了一种有用的策略来处理具有缺失值的数据集。而不是为每个缺失填充单个值值,Rubin (1987) 的多重插补程序将每个缺失值替换为一组似是而非的值,这些值表示正确插补值的不确定性。”
-
没错!
标签: r missing-data r-mice