如何计算 Python 中所有列的异常值？答案

【问题标题】：How to count outliers for all columns in Python?如何计算 Python 中所有列的异常值？
【发布时间】：2023-03-11 01:29:01
【问题描述】：

我在 Python 笔记本中有包含三列的数据集。 1.5 倍 IQR 中的异常值似乎太多了。我想如何计算所有列的异常值？

如果异常值太多，我可能会考虑删除多个特征被视为异常值的点。如果是这样，我怎么能这样算？

谢谢！

【问题讨论】：

作为起点看看：stackoverflow.com/questions/34782063/…

标签： python pandas

【解决方案1】：

类似于Romain X.'s answer，但在 DataFrame 而不是 Series 上运行。

随机数据：

np.random.seed(0)
df = pd.DataFrame(np.random.randn(100, 5), columns=list('ABCDE'))
df.iloc[::10] += np.random.randn() * 2  # this hopefully introduces some outliers
df.head()
Out: 
          A         B         C         D         E
0  2.529517  1.165622  1.744203  3.006358  2.633023
1 -0.977278  0.950088 -0.151357 -0.103219  0.410599
2  0.144044  1.454274  0.761038  0.121675  0.443863
3  0.333674  1.494079 -0.205158  0.313068 -0.854096
4 -2.552990  0.653619  0.864436 -0.742165  2.269755

四分位数计算：

Q1 = df.quantile(0.25)
Q3 = df.quantile(0.75)
IQR = Q3 - Q1

这些是每列的数字：

((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))).sum()
Out: 
A    1
B    0
C    0
D    1
E    2
dtype: int64

符合seaborn的计算：

请注意，总和之前的部分 ((df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))) 是一个布尔掩码，因此您可以直接使用它来删除异常值。这会将它们设置为 NaN，例如：

mask = (df < (Q1 - 1.5 * IQR)) | (df > (Q3 + 1.5 * IQR))
df[mask] = np.nan

【讨论】：

欣赏艾汉！太棒了！如果我只需要计算 B 列和 D 列中有多少异常值怎么办？我在下面尝试过，但不起作用。 python Q1 = df["B","D"].quantile(0.25) Q3 = df["B","D"].quantile(0.75) IQR = Q3 - Q1
@ChenLi 您需要使用一组额外的括号，例如Q1 = df[["B", "D"]].quantile(0.25)
非常感谢艾汉！这很有帮助！
如何从我的数据框中完全删除异常数据？