【发布时间】:2021-01-03 22:33:06
【问题描述】:
我正在使用 IterativeImputer 来处理我的数据集中丢失的数据,它似乎是一个不错的资源。虽然,我如何评估此回归的性能?有没有一种方法可以让我使用一些性能指标作为 r² 或 RMSE 与这个 imputer?
import numpy as np
import pandas as pd
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.ensemble import RandomForestRegressor
df = pd.DataFrame({'feat0':[10, 6, np.nan, 35, 15, 40, 15, 20, np.nan, 17, 9],
'feat1':[0.3, 0.1, 0.7, 0.5, np.nan, np.nan, 0.1, 0.7, 0.8, 0.2, 0.2],
'feat2':[np.nan, 19, 80, 65, np.nan, 70, 88, 12, 90, 73, 91]})
imp = IterativeImputer(estimator=RandomForestRegressor(), random_state=0)
df_imp = imp.fit_transform(df)
例如,我可以在这里使用它,但我不知道如何从统计上证明它的性能。
【问题讨论】:
标签: python scikit-learn regression missing-data imputation