【发布时间】:2013-05-10 20:03:16
【问题描述】:
我在文本文件中有数据,我已成功解析为 MultiIndex pandas 结构,但我不知道我所拥有的是否会做我想做的事情。
我拥有大量具有许多标识符(索引)的时间序列数据。我最终需要计算每个时间序列的自动相关时间和其他时间序列统计信息。
#!/usr/bin/python
from pandas import Series, DataFrame, MultiIndex
...
data = Series(value, index=[smear, block, obser])
print data
print data.ix[('0.07','1','0')]
这会为数据结构产生如下输出:
0.07 0 0 1.5802561
1 0.82228274
2 0.70917131
3 0.90707599
4 0.8517223
5 0.26346815
1 0 1.8163109
1 0.9972372
2 1.0872181
3 1.2459765
4 1.1500478
5 0.35668446
2 0 2.0734421
1 1.2863641
2 1.4033583
...
0.34 2 3 1.9047537
4 1.8193612
5 0.77739654
3 0 2.2757423
1 1.5499509
2 1.6623247
3 1.8330889
4 1.7484187
5 0.72914635
4 0 2.3269071
1 1.7137621
2 1.7359068
3 1.9162268
4 1.9714984
5 1.2095218
Length: 32100
而我感兴趣的时间序列信息存在于指定值smear、block、obser。这里给出smear = 0.07,block = 1,obser = 0的例子。最右边的列是我的时间序列数据。
0.07 1 0 1.8163109
0 1.8191682
0 1.816836
0 1.8172168
0 1.8169705
...
0 1.8184542
0 1.8170772
0 1.8159326
0 1.8161826
Length: 107
如何重塑数据,以便编写计算自相关时间的函数?
【问题讨论】:
-
您不使用
read_csv的原因是什么? -
我不熟悉 read_csv,我假设你需要逗号分隔的数据。我没有逗号分隔的数据。数据是文本文件,除了我关心的行之外还有很多垃圾。
-
实际上
read_csv“嗅探”文件的分隔符,所以你永远不需要指定它是如何分隔的 -
它是熊猫的一部分!
-
感谢您对 read_csv 的建议。一旦我解决了这个问题,我会进一步研究它。