使用 Pandas.rolling 计算滚动自相关答案

【问题标题】：Computing Rolling autocorrelation using Pandas.rolling使用 Pandas.rolling 计算滚动自相关
【发布时间】：2018-12-29 09:24:43
【问题描述】：

我正在尝试使用 Pandas (0.23.3) 计算 Series 对象的滚动自相关

设置示例：

dt_index = pd.date_range('2018-01-01','2018-02-01', freq = 'B')
data = np.random.rand(len(dt_index))
s = pd.Series(data, index = dt_index)

创建一个窗口大小 = 5 的滚动对象：

r = s.rolling(5)

获取：

Rolling [window=5,center=False,axis=0]

现在当我尝试计算相关性时（很确定这是错误的方法）：

r.corr(other=r)

我只得到 NaN

我尝试了基于documentation:的另一种方法：

df = pd.DataFrame()
df['a'] = s
df['b'] = s.shift(-1)
df.rolling(window=5).corr()

得到类似的东西：

...
2018-03-01 a NaN NaN
           b NaN NaN

真的不知道我哪里出错了。任何帮助将不胜感激！文档也使用 float64。认为这是因为相关性非常接近于零，所以它显示的是 NaN？有人提出了错误报告 here，但我认为 jreback 在之前的错误修复中解决了这个问题。

这是另一个相关答案，但它使用的是pd.rolling_apply，Pandas 版本 0.23.3 似乎不支持？

【问题讨论】：

2018-01-01 NaN 2018-01-02 NaN 2018-01-03 NaN 2018-01-04 NaN 2018-01-05 1.0 2018-01-08 1.0 2018-01-09 1.0 2018-01-10 1.0 2018-01-11 1.0 2018-01-12 1.0 2018-01-15 1.0 2018-01-16 1.0 2018-01-17 1.0 2018-01-18 1.0 2018-01-19 1.0 2018-01-22 1.0 2018-01-23 1.0 2018-01-24 1.0 2018-01-25 1.0 2018-01-26 1.0 2018-01-29 1.0 2018-01-30 1.0 2018-01-31 1.0 2018-02-01 1.0 我尝试了您的第一种方法，只有前 4 个值是 nan，这很有意义，因为您的窗口大小为 5，并且至少需要 5 个元素？
@vikasns 我有点怀疑返回的值都是 1 的事实。手头没有任何数学证明，但是从完全自相关的均匀随机分布中提取的值对我来说非常不直观。您能否将您的实现发布为答案？

标签： pandas dataframe time-series correlation series

【解决方案1】：

IIUC，

>>> s.rolling(5).apply(lambda x: x.autocorr(), raw=False)

2018-01-01         NaN
2018-01-02         NaN
2018-01-03         NaN
2018-01-04         NaN
2018-01-05   -0.502455
2018-01-08   -0.072132
2018-01-09   -0.216756
2018-01-10   -0.090358
2018-01-11   -0.928272
2018-01-12   -0.754725
2018-01-15   -0.822256
2018-01-16   -0.941788
2018-01-17   -0.765803
2018-01-18   -0.680472
2018-01-19   -0.902443
2018-01-22   -0.796185
2018-01-23   -0.691141
2018-01-24   -0.427208
2018-01-25    0.176668
2018-01-26    0.016166
2018-01-29   -0.876047
2018-01-30   -0.905765
2018-01-31   -0.859755
2018-02-01   -0.795077

【讨论】：

非常感谢。知道为什么使用 rolling_obj.corr(r) 不起作用吗？你能解释一下你对其他和成对论点的理解吗？
因为你会在 5 个对象的窗口和整个系列之间做corr。不完全是你想要的，不是吗;）
有更快的方法吗？当数据帧长 100k 时，这需要一点时间才能运行。谢谢
df.rolling(5).apply(lambda x: pd.Series(x).autocorr()) 也可以

【解决方案2】：

这比 Pandas 的 autocorr 快很多，但结果不同。在我的数据集中，这两种方法的结果之间存在 0.87 的 Pearson 相关性。有讨论为什么结果不一样here。

from statsmodels.tsa.stattools import acf
s.rolling(5).apply(lambda x: acf(x, unbiased=True, fft=False)[1], raw=True)

注意输入不能有空值，否则会返回所有空值。

【讨论】：