【问题标题】:which one is the best method to eliminate the outliers from a dataset?哪一种是从数据集中消除异常值的最佳方法?
【发布时间】:2021-05-03 01:17:24
【问题描述】:

我想从数据集中查找并删除异常值。我使用 IQR 方法检测到异常值并使用箱线图显示它们,但无法删除它们。

请提出任何解决方案。

谢谢。

【问题讨论】:

    标签: python pandas machine-learning dataset outliers


    【解决方案1】:

    看看这个链接:

    https://medium.com/@prashant.nair2050/hands-on-outlier-detection-and-treatment-in-python-using-1-5-iqr-rule-f9ff1961a414

    在这里,他们使用 IQR 方法检测到异常值,然后使用以下示例代码删除了特定的异常值样本。

    sample.drop(sample[ (sample.Salary > u) | (sample.Salary < l) ].index , inplace=True)
    

    【讨论】:

      【解决方案2】:

      一旦您能够找到 2 个极值(之后不需要值的阈值) 你可以简单地做到这一点 这里左极值是 5 右极值是 10,000

      df2=pd.DataFrame({'values':[1277,1854,9132,1277,1853,9332,1854,2561,9132,5143,11111,3]})
          values
      0   1277
      1   1854
      2   9132
      3   1277
      4   1853
      5   9332
      6   1854
      7   2561
      8   9132
      9   5143
      10  11111
      11  3
      
      df2[(df2>5) & (df2.values <10000)].dropna()
      
      
          values
      0   1277.0
      1   1854.0
      2   9132.0
      3   1277.0
      4   1853.0
      5   9332.0
      6   1854.0
      7   2561.0
      8   9132.0
      9   5143.0
      

      【讨论】:

        猜你喜欢
        • 2016-11-08
        • 1970-01-01
        • 1970-01-01
        • 2013-10-26
        • 2020-05-13
        • 1970-01-01
        • 2019-09-05
        • 2023-01-19
        • 1970-01-01
        相关资源
        最近更新 更多