【发布时间】:2015-03-07 06:55:57
【问题描述】:
我需要提取给定窗口的时间序列/数组的所有子序列。例如:
>>> ts = pd.Series([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
>>> window = 3
>>> subsequences(ts, window)
array([[0, 1, 2],
[1, 2, 3],
[2, 3, 4],
[3, 4, 5],
[4, 5, 6],
[5, 6, 7],
[5, 7, 8],
[6, 8, 9]])
遍历序列的朴素方法当然是昂贵的,例如:
def subsequences(ts, window):
res = []
for i in range(ts.size - window + 1):
subts = ts[i:i+window]
subts.reset_index(drop=True, inplace=True)
subts.name = None
res.append(subts)
return pd.DataFrame(res)
我找到了一种更好的方法,方法是复制序列,将其移动一个不同的值直到窗口被覆盖,然后用reshape 分割不同的序列。性能提高了大约 100 倍,因为 for 循环迭代的是窗口大小,而不是序列大小:
def subsequences(ts, window):
res = []
for i in range(window):
subts = ts.shift(-i)[:-(ts.size%window)].reshape((ts.size // window, window))
res.append(subts)
return pd.DataFrame(np.concatenate(res, axis=0))
我已经看到pandas 在pandas.stats.moment 模块中包含了几个滚动函数,我猜它们所做的在某种程度上类似于子序列问题。该模块中是否有任何地方或 pandas 中的其他任何地方可以提高效率?
谢谢!
更新(解决方案):
基于@elyase 的回答,对于这个特定的案例,有一个稍微简单的实现,让我在这里写下来,并解释一下它在做什么:
def subsequences(ts, window):
shape = (ts.size - window + 1, window)
strides = ts.strides * 2
return np.lib.stride_tricks.as_strided(ts, shape=shape, strides=strides)
给定一维 numpy 数组,我们首先计算结果数组的形状。我们将从数组的每个位置开始有一行,除了最后几个元素,从这些元素开始,接下来没有足够的元素来完成窗口。
参见本说明中的第一个示例,我们如何从最后一个数字开始是 6,因为从 7 开始,我们无法创建三个元素的窗口。因此,行数是大小减去窗口加一。列数就是窗口。
接下来,棘手的部分是告诉如何使用我们刚刚定义的形状填充结果数组。
为此,我们认为第一个元素将是第一个。然后我们需要指定两个值(在两个整数的元组中作为参数strides 的参数)。这些值指定了我们需要在原始数组(一维数组)中执行的步骤以填充第二个数组(二维数组)。
考虑一个不同的示例,我们要在其中实现 np.reshape 函数,从 9 个元素的一维数组到 3x3 数组。第一个元素填充第一个位置,然后,它右边的元素将成为一维数组中的下一个元素,因此我们移动 1 步。然后,棘手的部分,要填充第二行的第一个元素,我们应该执行 3 个步骤,从 0 到 4,请参阅:
>>> original = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8])
>>> new = array([[0, 1, 2],
[3, 4, 5],
[6, 7, 8])]
因此,对于reshape,我们对两个维度的步骤将是(1, 3)。对于我们的例子,它存在重叠,它实际上更简单。当我们向右移动以填充结果数组时,我们从一维数组中的下一个位置开始,当我们向右移动时,我们再次获得一维数组中的下一个元素,即 1 步。所以,步骤是(1, 1)。
只有最后一件事需要注意。 strides 参数不接受我们使用的“步骤”,而是接受内存中的字节。要了解它们,我们可以使用 numpy 数组的strides 方法。它返回一个带有步幅(以字节为单位的步数)的元组,每个维度都有一个元素。在我们的例子中,我们得到一个 1 元素的元组,我们想要它两次,所以我们有 * 2。
np.lib.stride_tricks.as_strided 函数使用所描述的方法执行填充而不复制数据,这使得它非常有效。
最后,请注意,此处发布的函数假定一个一维输入数组(这与一个具有 1 个元素作为行或列的二维数组不同)。查看输入数组的 shape 方法,您应该得到类似 (N, ) 而不是 (N, 1) 的内容。这种方法在后者上会失败。注意@elyase 发布的方法处理二维输入数组(这就是为什么这个版本稍微简单一些)。
【问题讨论】:
-
当你说天真的方法很昂贵时,我假设你实际上已经分析了你的程序,这确实是一个瓶颈?
-
是的,因为我需要遍历整个序列,所以计算中没有优化,而且速度很慢。对于 4719 个元素的序列和 5 个窗口,大约需要 700 毫秒。对于相同的数据,第二种方法大约需要 8 毫秒。问题是 pandas(或 numpy)是否可以在完全不需要迭代的情况下做到这一点,这应该会更快。
-
您可能在 codereview.stackexchange.com 上运气更好,我也会将您的时间信息放在问题中
标签: python performance numpy pandas time-series