除了其他自变量之外，还使用因变量来估算其中一个自变量的缺失值？答案

【问题标题】：Imputing missing values of one of the independent variable using dependent variable in addition to other independent variables?除了其他自变量之外，还使用因变量来估算其中一个自变量的缺失值？
【发布时间】：2019-12-24 10:47:38
【问题描述】：

我想估算一个自变量的缺失值，比如变量 X1，其他自变量与 X1 的相关性较弱。但是，因变量与 X1 有很强的相关性。

我希望使用 sklearn IterativeImputer 的缺失值估算器，例如 KNN 回归器或 ExtraTreesRegressor（类似于 R 中的 missforest）。

https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py

除了自变量之外，我可以使用因变量来估算 X1 的值吗？这会在我的模型中引入太多差异吗？如果不建议这样做，那么应该如何处理 X1，删除 X1 不是一种选择，我担心如果我只用其他 IV 来估算 X1 缺失，估算值会不太准确。

谢谢

【问题讨论】：

标签： scikit-learn statistics data-science missing-data

【解决方案1】：

我对您所指的软件包一无所知。但是，在忽略与因变量的关系的情况下估算变量通常是一个坏主意。这假设这些变量之间没有关系，因此因变量和估算值之间的相关性将偏向于 0。

Graham (2009) 写到：

"事实上，分析模型中的所有变量都必须是包含在插补模型中。令人恐惧的是，将 DV 包含在插补模型可能会导致估计重要的偏差关系（例如，程序变量的回归系数预测DV）。然而，事实恰恰相反。当 DV 包含在模型中时，所有相关参数估计都是无偏的，但从 IV 和协变量的插补模型中排除 DV 会产生有偏估计。"

希望这会有所帮助。总结一下：

除了自变量之外，我可以使用因变量来估算 X1 的值吗？

是的，你可以，而且我读过的大部分文献都表明你绝对应该这样做

这是否会在我的模型中引入太多差异？

不，它不应该（你为什么认为这会引入更多的差异？而差异究竟是什么？）。它应该减少变量估计协方差/相关性的偏差。

有关插补的优秀文章，请参阅：

格雷厄姆 (2009)。缺少数据分析：使其在现实世界中发挥作用。 心理学年度回顾, 60, 549-576.

【讨论】：