【发布时间】:2022-03-25 22:43:38
【问题描述】:
考虑以下solution 在 Pandas 中计算组内差异:
df = df.set_index(['ticker', 'date']).sort_index()[['value']]
df['diff'] = np.nan
idx = pd.IndexSlice
for ix in df.index.levels[0]:
df.loc[ idx[ix,:], 'diff'] = df.loc[idx[ix,:], 'value' ].diff()
为:
> df
date ticker value
0 63 C 1.65
1 88 C -1.93
2 22 C -1.29
3 76 A -0.79
4 72 B -1.24
5 34 A -0.23
6 92 B 2.43
7 22 A 0.55
8 32 A -2.50
9 59 B -1.01
返回:
> df
value diff
ticker date
A 22 0.55 NaN
32 -2.50 -3.05
34 -0.23 2.27
76 -0.79 -0.56
B 59 -1.01 NaN
72 -1.24 -0.23
92 2.43 3.67
C 22 -1.29 NaN
63 1.65 2.94
88 -1.93 -3.58
该解决方案不适用于大型数据帧。形状为 (405344,2) 的数据框需要几分钟时间。大概是这种情况,因为我正在迭代主循环中第一级的每个值。
有没有办法在 Pandas 中加快速度?遍历索引值是解决这个问题的好方法吗? numba 可以用来做这个吗?
【问题讨论】:
标签: python pandas numpy numba bodo