【发布时间】:2018-12-29 09:24:43
【问题描述】:
我正在尝试使用 Pandas (0.23.3) 计算 Series 对象的滚动自相关
设置示例:
dt_index = pd.date_range('2018-01-01','2018-02-01', freq = 'B')
data = np.random.rand(len(dt_index))
s = pd.Series(data, index = dt_index)
创建一个窗口大小 = 5 的滚动对象:
r = s.rolling(5)
获取:
Rolling [window=5,center=False,axis=0]
现在当我尝试计算相关性时(很确定这是错误的方法):
r.corr(other=r)
我只得到 NaN
我尝试了基于documentation:的另一种方法:
df = pd.DataFrame()
df['a'] = s
df['b'] = s.shift(-1)
df.rolling(window=5).corr()
得到类似的东西:
...
2018-03-01 a NaN NaN
b NaN NaN
真的不知道我哪里出错了。任何帮助将不胜感激!文档也使用 float64。认为这是因为相关性非常接近于零,所以它显示的是 NaN?有人提出了错误报告 here,但我认为 jreback 在之前的错误修复中解决了这个问题。
这是另一个相关答案,但它使用的是pd.rolling_apply,Pandas 版本 0.23.3 似乎不支持?
【问题讨论】:
-
2018-01-01 NaN 2018-01-02 NaN 2018-01-03 NaN 2018-01-04 NaN 2018-01-05 1.0 2018-01-08 1.0 2018-01-09 1.0 2018-01-10 1.0 2018-01-11 1.0 2018-01-12 1.0 2018-01-15 1.0 2018-01-16 1.0 2018-01-17 1.0 2018-01-18 1.0 2018-01-19 1.0 2018-01-22 1.0 2018-01-23 1.0 2018-01-24 1.0 2018-01-25 1.0 2018-01-26 1.0 2018-01-29 1.0 2018-01-30 1.0 2018-01-31 1.0 2018-02-01 1.0我尝试了您的第一种方法,只有前 4 个值是 nan,这很有意义,因为您的窗口大小为 5,并且至少需要 5 个元素? -
@vikasns 我有点怀疑返回的值都是 1 的事实。手头没有任何数学证明,但是从完全自相关的均匀随机分布中提取的值对我来说非常不直观。您能否将您的实现发布为答案?
标签: pandas dataframe time-series correlation series