【发布时间】:2013-05-09 22:28:43
【问题描述】:
我有一个 Pandas 数据框 df1,它是一个长达一年的 5 分钟 时间序列,包含 A-Z 列。
df1.shape
(105121, 26)
df1.index
<class 'pandas.tseries.index.DatetimeIndex'>
[2002-01-02 00:00:00, ..., 2003-01-02 00:00:00]
Length: 105121, Freq: 5T, Timezone: None
我有第二个数据框 df2,它是一个长达一年的每天时间序列(在同一时期内),具有匹配的列。第二帧的值是布尔值。
df2.shape
(365, 26)
df2.index
<class 'pandas.tseries.index.DatetimeIndex'>
[2002-01-02 00:00:00, ..., 2003-01-01 00:00:00]
Length: 365, Freq: D, Timezone: None
我想将 df2 用作 df1 的精美索引,即“df1.ix[df2]”或类似的东西,这样我就可以为每个日期返回 df1 列的子集——即 df2 表示为 True 的那些那个日期(上面有所有的时间戳)。因此,结果的形状应该是 (105121, width),其中 width 是布尔值所暗示的不同列的数量 (width
目前,df1.ix[df2] 仅部分有效。只挑选出每天 00:00 的值,根据 df2 的“点状”时间序列,这很有意义。
我接下来尝试将时间跨度作为 df2 索引:
df2.index
PeriodIndex: 365 entries, 2002-01-02 to 2003-01-01
这一次,我得到一个错误:
/home/wchapman/.local/lib/python2.7/site-packages/pandas-0.11.0-py2.7-linux-x86_64.egg/pandas/core/index.pyc in get_indexer(self, target, method, limit)
844 this = self.astype(object)
845 target = target.astype(object)
--> 846 return this.get_indexer(target, method=method, limit=limit)
847
848 if not self.is_unique:
AttributeError: 'numpy.ndarray' object has no attribute 'get_indexer'
我的临时解决方案是按日期循环,但这似乎效率低下。 Pandas 有能力进行这种花哨的索引吗?我在文档中的任何地方都没有看到示例。
【问题讨论】:
-
您可以将
df2重新采样到 5 分钟并填充它。 -
谢谢——应该提到我也试过了。得到 ValueError:无法使用多维键进行索引。