【问题标题】:MICE number of multiply imputed data sets.多重插补数据集的 MICE 数量。
【发布时间】:2018-05-15 13:38:09
【问题描述】:

关于多重插补数据集“m”的数量的效用,我有多个问题。我的理解是,老鼠会重复m次对数据集中缺失值的填补过程。

1) 老鼠是否考虑了上一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?

2) 如果每个步骤彼此独立,那么为了一个插补目的而拥有多个插补数据集有什么意义?

在解释老鼠的论文中,有一个方案显示了多个插补步骤

我想我们拥有的估算数据集越多,最好是在我们想要合并结果时,但是分析结果步骤意味着创建一个预测模型,它可能是:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

如果我的数据集中没有任何预测列或标签会怎样?事实上,我的数据集包含基因组学测量,它们都是独立的。如何在不经过预测步骤的情况下合并结果,或组合 m 个估算数据集?

最好的,

巴巴

【问题讨论】:

  • 多次插补数据集后,您想进行什么样的分析?如果 pool() 函数不支持您的分析,那么您可以在对每个插补数据集运行分析后使用 Rubin 规则手动合并结果。
  • 我正在分析微阵列数据的不同插补方法,所以我的想法是在我的数据集中随机插入Nan值并检查插补值与真实值之间的距离。这就是为什么我不知道如何处理 m 估算数据集。我应该做一个意思吗?
  • 简而言之,我不确定。多重插补的目的是进行分析并汇总结果,同时还要考虑分析中插补值的不确定性。目的不是最终得到一个正确的完整数据集。取所有插补集的平均值是汇集这些集的一种方式,这与制作一个只有截距的模型并汇集结果相同。另一种方法是分别将估算值与每个估算集中的实际值进行比较,然后汇总这些比较。
  • 好的,非常感谢,确实我对多重插补有一个错误的理解“多重插补提供了一种有用的策略来处理具有缺失值的数据集。而不是为每个缺失填充单个值值,Rubin (1987) 的多重插补程序将每个缺失值替换为一组似是而非的值,这些值表示正确插补值的不确定性。”
  • 没错!

标签: r missing-data r-mice


【解决方案1】:

很好,你有这些问题。多重插补经常被误解。它更像是一个关于如何使用缺失数据执行分析的完整概念,而不是只为您提供一个没有缺失值的数据集的算法。

1) 老鼠是否考虑了上一步的插补,因此每一步都接近最终收敛,还是每一步完全相互独立?

不,没有收敛。 m 个插补数据集都没有“更好”的插补值。

2) 如果每个步骤彼此独立,那么为了一个插补目的而拥有多个插补数据集有什么意义?

重点是对插补过程的不确定性进行建模。如果一个推算数据集中的 NA 值被替换为例如只有 5 这绝不是全部真相...更准确的说法可能是这样的:该值可能介于 4 和 6 之间...。

鲁宾的这篇论文很有趣:https://www.jstor.org/stable/2291635

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 2021-10-18
    • 1970-01-01
    • 1970-01-01
    • 2021-10-15
    • 2021-12-31
    • 2022-11-03
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多