【发布时间】:2021-07-19 21:43:19
【问题描述】:
我有一个如下所示的 df:
| Group. | Score. |
|---|---|
| red | 34 |
| blue | 42 |
| green | 1000 |
| green | 34 |
| blue | 34 |
| red | 42 |
我想在此添加一列,指定该值是否为异常值。如果没有组,那么我会使用类似的东西:
df['outliers'] = df[df[col] > df[col].mean() + 3 * df[col].std()]
但是我将如何做到这一点,使其在组内?
【问题讨论】:
-
查看 pandas 的 where 子句。 geeksforgeeks.org/python-pandas-dataframe-where
-
这能回答你的问题吗? Checking a Pandas Dataframe for Outliers
-
差不多但不完全。因为我有不同的组,所以我需要将每个值与该组的平均值进行比较,而不是与整列的平均值进行比较。
标签: python pandas statistics outliers