如何处理离群数据（多列）答案

【问题标题】：How to deal with outlier data(multiple columns)如何处理离群数据（多列）
【发布时间】：2022-11-21 01:42:35
【问题描述】：

我有一个包含许多列数据的数据集，我想检查其中是否有超过 100 的数据，如果有，我就删除整行数据。 [一些数据][1]

我试着用

useful_data = data[(data)['a1'] <= 100]
useful_data = data[(data)['a2'] <= 100]
useful_data = data[(data)['a3'] <= 100]
useful_data = data[(data)['a4'] <= 100]
useful_data = data[(data)['a5'] <= 100]
useful_data = data[(data)['a6'] <= 100]
useful_data = data[(data)['a7'] <= 100]
useful_data = data[(data)['a8'] <= 100]

但这显然不起作用，因为我一遍又一遍地重新分配 useful_data 。

我的问题是：如何去除离群数据并使其整洁？我不想做重复的工作。 [1]:https://i.stack.imgur.com/SNZtz.png

【问题讨论】：

标签： pandas data-analysis

【解决方案1】：

这应该适合你

data = pd.DataFrame({'a1':[98, 87, 78, 101, 45], 
                     'a2':[89, 98, 23, 43, 102],
                     'a3':[120, 9, 23, 12, 122]})

new_data = data[data[data.columns.values]<= 100]
new_data = new_data.dropna()

这是这段代码的输出

     a1    a2    a3
1  87.0  98.0   9.0
2  78.0  23.0  23.0

【讨论】：

你可以把 .dropna() 放在 'new_data = data[data[data.columns.values]<= 100]' 行的末尾，如果你想要它在更少的行