【发布时间】:2019-11-06 11:33:51
【问题描述】:
我有一个包含 200,000 个观察值和 23 个不同列的数据框。我绘制了数据,发现每一列都有异常值。因此,我想对完整的数据框进行缩尾处理。起初,我的代码确实有效。不过速度很慢。但是,现在我只收到“系列”对象不可调用的消息。我怎样才能解决这个问题?
我使用以下代码对日期帧进行优化:
lower = 0.01
upper = 0.99
quantile_df = df.quantile([lower,upper])
quant_df
定义四分位数后,我将异常值从数据框中过滤掉:
df =df.apply(lambda x: x(x > quant_df.loc[lower,x.name]) &
(x < quant_df.loc[upper,x.name]), axis=0)
【问题讨论】: