【问题标题】:Imputing missing values of one of the independent variable using dependent variable in addition to other independent variables?除了其他自变量之外,还使用因变量来估算其中一个自变量的缺失值?
【发布时间】:2019-12-24 10:47:38
【问题描述】:

我想估算一个自变量的缺失值,比如变量 X1,其他自变量与 X1 的相关性较弱。但是,因变量与 X1 有很强的相关性。

我希望使用 sklearn IterativeImputer 的缺失值估算器,例如 KNN 回归器或 ExtraTreesRegressor(类似于 R 中的 missforest)。

https://scikit-learn.org/stable/auto_examples/impute/plot_iterative_imputer_variants_comparison.html#sphx-glr-auto-examples-impute-plot-iterative-imputer-variants-comparison-py

除了自变量之外,我可以使用因变量来估算 X1 的值吗?这会在我的模型中引入太多差异吗?如果不建议这样做,那么应该如何处理 X1,删除 X1 不是一种选择,我担心如果我只用其他 IV 来估算 X1 缺失,估算值会不太准确。

谢谢

【问题讨论】:

    标签: scikit-learn statistics data-science missing-data


    【解决方案1】:

    我对您所指的软件包一无所知。但是,在忽略与因变量的关系的情况下估算变量通常是一个坏主意。这假设这些变量之间没有关系,因此因变量和估算值之间的相关性将偏向于 0。

    Graham (2009) 写到:

    "事实上,分析模型中的所有变量都必须是 包含在插补模型中。令人恐惧的是,将 DV 包含在 插补模型可能会导致估计重要的偏差 关系(例如,程序变量的回归系数 预测DV)。然而,事实恰恰相反。当 DV 包含在模型中时,所有相关参数估计都是无偏的,但从 IV 和协变量的插补模型中排除 DV 会产生有偏估计。"

    希望这会有所帮助。总结一下:

    • 除了自变量之外,我可以使用因变量来估算 X1 的值吗?

    是的,你可以,而且我读过的大部分文献都表明你绝对应该这样做

    • 这是否会在我的模型中引入太多差异?

    不,它不应该(你为什么认为这会引入更多的差异?而差异究竟是什么?)。它应该减少变量估计协方差/相关性的偏差。

    有关插补的优秀文章,请参阅:

    格雷厄姆 (2009)。缺少数据分析:使其在现实世界中发挥作用。 心理学年度回顾, 60, 549-576.

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-01-21
      • 2021-03-31
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多