scikit IterativeImputer 中每一列的 max_value 和 min_value答案

【问题标题】：max_value and min_value for each column in scikit IterativeImputerscikit IterativeImputer 中每一列的 max_value 和 min_value
【发布时间】：2020-05-30 09:27:29
【问题描述】：

我有这个包含 78 列和 5707 行的数据集。几乎每一列都有缺失值，我想用 IterativeImputer 来估算它们。如果我理解正确，它将根据其他列的信息对每一列进行“更智能”的估算。

但是，在估算时，我不希望估算值小于观察到的最小值或大于观察到的最大值。我意识到有 max_value 和 min_value 参数，但我不想对插补施加“全局”限制，相反，我希望每列都有自己的 max_value 和 min_value（这是已经观察到的最大值和最小值）。因为否则，列中的值没有意义（人数为负值，费率为负值等）

有没有办法实现它？

【问题讨论】：

标签： python pandas scikit-learn sklearn-pandas imputation

【解决方案1】：

因此，如果您想为每列设置不同的最大值和最小值，那么您可以进入循环并在每次迭代中使用 sklearn.compose.make_column_selector 或 sklearn.compose.make_column_transformer 选择列，然后将迭代估算器应用于该列，给出最大值和最小值该列作为参数。

【讨论】：