【发布时间】:2019-12-26 19:32:13
【问题描述】:
我正在尝试对我的时间序列数据进行异常值处理,我想用第 95 个百分位数替换 > 95% 的值,用第 5 个百分位的值替换
我正在尝试使用名为 Cut 的子函数创建 OutlierTreatment 函数。代码如下
def outliertreatment(df,high_limit,low_limit):
df_temp=df['y'].apply(cut,high_limit,low_limit, extra_kw=1)
return df_temp
def cut(column,high_limit,low_limit):
conds = [column > np.percentile(column, high_limit),
column < np.percentile(column, low_limit)]
choices = [np.percentile(column, high_limit),
np.percentile(column, low_limit)]
return np.select(conds,choices,column)
我希望在 OutlierTreatment 函数中发送数据帧,95 作为 high_limit 和 5 作为 low_limit。如何达到预期的效果?
【问题讨论】:
-
请注意如何设置第 95 和第 5 个值,因为如果您进行迭代,只要超过第 95 个的值发生变化,这些限制就会发生变化。除此之外,只需定义一个函数,如果值高于固定的第 95 位,则将其替换为该数字,如果低于第 5 位,则将其替换为该值?
标签: python pandas dataframe time-series outliers