【问题标题】:Fill the missing values in the data set填充数据集中的缺失值
【发布时间】:2020-02-20 12:18:44
【问题描述】:

我有一个如下数据集。

building_id meter   meter_reading   primary_use square_feet air_temperature dew_temperature sea_level_pressure  wind_direction  wind_speed  hour    day weekend month
0            0  0   NaN 0   7432    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
1            1  0   NaN 0   2720    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
2            2  0   NaN 0   5376    25.0    20.0    1019.7  0.0 0.0 0   1   4   1
3            3  0   NaN 0   23685   25.0    20.0    1019.7  0.0 0.0 0   1   4   1
4            4  0   NaN 0   116607  25.0    20.0    1019.7  0.0 0.0 0   1   4   1

您可以看到meter_reading 下的值是Nan,我喜欢用按“primary_use”和“square_feet”列分组的平均值来填充它。我可以使用哪个 api 来实现这一点。我目前正在使用 scikit learn 的 imputer。

谢谢,非常感谢您的帮助。

【问题讨论】:

    标签: scikit-learn data-science


    【解决方案1】:

    如果您使用 pandas 数据框,它已经带来了您需要的一切。

    请注意,priary_use 是分类特征,而 square_feet 是连续特征。因此,首先您想将square_feet 分成几类,这样您就可以计算每个组的平均meter_reading

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2018-12-17
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-06-06
      • 1970-01-01
      相关资源
      最近更新 更多