【问题标题】:How to deal with outlier data(multiple columns)如何处理离群数据(多列)
【发布时间】:2022-11-21 01:42:35
【问题描述】:

我有一个包含许多列数据的数据集,我想检查其中是否有超过 100 的数据,如果有,我就删除整行数据。 [一些数据][1]

我试着用

useful_data = data[(data)['a1'] <= 100]
useful_data = data[(data)['a2'] <= 100]
useful_data = data[(data)['a3'] <= 100]
useful_data = data[(data)['a4'] <= 100]
useful_data = data[(data)['a5'] <= 100]
useful_data = data[(data)['a6'] <= 100]
useful_data = data[(data)['a7'] <= 100]
useful_data = data[(data)['a8'] <= 100]

但这显然不起作用,因为我一遍又一遍地重新分配 useful_data 。

我的问题是:如何去除离群数据并使其整洁?我不想做重复的工作。 [1]:https://i.stack.imgur.com/SNZtz.png

【问题讨论】:

    标签: pandas data-analysis


    【解决方案1】:

    这应该适合你

    data = pd.DataFrame({'a1':[98, 87, 78, 101, 45], 
                         'a2':[89, 98, 23, 43, 102],
                         'a3':[120, 9, 23, 12, 122]})
    
    new_data = data[data[data.columns.values]<= 100]
    new_data = new_data.dropna()
    

    这是这段代码的输出

         a1    a2    a3
    1  87.0  98.0   9.0
    2  78.0  23.0  23.0
    

    【讨论】:

    • 你可以把 .dropna() 放在 'new_data = data[data[data.columns.values]<= 100]' 行的末尾,如果你想要它在更少的行
    猜你喜欢
    • 1970-01-01
    • 2016-03-24
    • 1970-01-01
    • 2018-05-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-06-27
    • 2017-12-11
    相关资源
    最近更新 更多