如何使用 Pandas 数据结构计算自相关？答案

【问题标题】：How can I use a Pandas data structure to calculate autocorrelation?如何使用 Pandas 数据结构计算自相关？
【发布时间】：2013-05-10 20:03:16
【问题描述】：

我在文本文件中有数据，我已成功解析为 MultiIndex pandas 结构，但我不知道我所拥有的是否会做我想做的事情。

我拥有大量具有许多标识符（索引）的时间序列数据。我最终需要计算每个时间序列的自动相关时间和其他时间序列统计信息。

#!/usr/bin/python

from pandas import Series, DataFrame, MultiIndex
...
data = Series(value, index=[smear, block, obser])
print data

print data.ix[('0.07','1','0')]

这会为数据结构产生如下输出：

0.07  0  0     1.5802561
         1    0.82228274
         2    0.70917131
         3    0.90707599
         4     0.8517223
         5    0.26346815
      1  0     1.8163109
         1     0.9972372
         2     1.0872181
         3     1.2459765
         4     1.1500478
         5    0.35668446
      2  0     2.0734421
         1     1.2863641
         2     1.4033583
...
0.34  2  3     1.9047537
         4     1.8193612
         5    0.77739654
      3  0     2.2757423
         1     1.5499509
         2     1.6623247
         3     1.8330889
         4     1.7484187
         5    0.72914635
      4  0     2.3269071
         1     1.7137621
         2     1.7359068
         3     1.9162268
         4     1.9714984
         5     1.2095218
Length: 32100

而我感兴趣的时间序列信息存在于指定值smear、block、obser。这里给出smear = 0.07，block = 1，obser = 0的例子。最右边的列是我的时间序列数据。

0.07  1  0    1.8163109
         0    1.8191682
         0     1.816836
         0    1.8172168
         0    1.8169705
...
         0    1.8184542
         0    1.8170772
         0    1.8159326
         0    1.8161826
Length: 107

如何重塑数据，以便编写计算自相关时间的函数？

【问题讨论】：

您不使用read_csv的原因是什么？
我不熟悉 read_csv，我假设你需要逗号分隔的数据。我没有逗号分隔的数据。数据是文本文件，除了我关心的行之外还有很多垃圾。
实际上read_csv“嗅探”文件的分隔符，所以你永远不需要指定它是如何分隔的
它是熊猫的一部分！
感谢您对 read_csv 的建议。一旦我解决了这个问题，我会进一步研究它。

标签： python numpy scipy pandas

【解决方案1】：

首先，使用data.ix(whatever) 对象的“值”组件来获取时间序列的原始数组。然后使用numpy.correlate计算自相关，使用this问题的答案中描述的方法。

【讨论】：