【发布时间】:2014-07-26 20:03:16
【问题描述】:
数据集:我有一个 1GB 的股票数据集,其中包含日期范围之间的值。日期范围没有重叠,数据集按 (ticker, start_date) 排序。
>>> df.head()
start_date end_date val
ticker
AAPL 2014-05-01 2014-05-01 10.0000000000
AAPL 2014-06-05 2014-06-10 20.0000000000
GOOG 2014-06-01 2014-06-15 50.0000000000
MSFT 2014-06-16 2014-06-16 None
TWTR 2014-01-17 2014-05-17 10.0000000000
目标:我想解压缩数据框,以便我有单独的日期而不是日期范围。例如,AAPL 行将从只有 2 行变为 7 行:
>>> AAPL_decompressed.head()
val
date
2014-05-01 10.0000000000
2014-06-05 20.0000000000
2014-06-06 20.0000000000
2014-06-07 20.0000000000
2014-06-08 20.0000000000
我希望 pandas 有一个很好的优化方法,比如 resample 可以在几行内完成。
【问题讨论】:
标签: python pandas time-series