【发布时间】:2019-12-24 10:47:38
【问题描述】:
我想估算一个自变量的缺失值,比如变量 X1,其他自变量与 X1 的相关性较弱。但是,因变量与 X1 有很强的相关性。
我希望使用 sklearn IterativeImputer 的缺失值估算器,例如 KNN 回归器或 ExtraTreesRegressor(类似于 R 中的 missforest)。
除了自变量之外,我可以使用因变量来估算 X1 的值吗?这会在我的模型中引入太多差异吗?如果不建议这样做,那么应该如何处理 X1,删除 X1 不是一种选择,我担心如果我只用其他 IV 来估算 X1 缺失,估算值会不太准确。
谢谢
【问题讨论】:
标签: scikit-learn statistics data-science missing-data