【发布时间】:2020-02-20 12:18:44
【问题描述】:
我有一个如下数据集。
building_id meter meter_reading primary_use square_feet air_temperature dew_temperature sea_level_pressure wind_direction wind_speed hour day weekend month
0 0 0 NaN 0 7432 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
1 1 0 NaN 0 2720 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
2 2 0 NaN 0 5376 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
3 3 0 NaN 0 23685 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
4 4 0 NaN 0 116607 25.0 20.0 1019.7 0.0 0.0 0 1 4 1
您可以看到meter_reading 下的值是Nan,我喜欢用按“primary_use”和“square_feet”列分组的平均值来填充它。我可以使用哪个 api 来实现这一点。我目前正在使用 scikit learn 的 imputer。
谢谢,非常感谢您的帮助。
【问题讨论】: