【发布时间】:2017-11-26 16:50:51
【问题描述】:
任何人都可以帮助理解为什么以下两种方法,我的想法是,否则与 pandas.dataframe groupby 方法相同,根据 iPython 的 Magic % 在不同的时间完成时间?
%timeit somedf.groupby('someBoolColumn')['someBoolColumn'].count()
484 µs ± 9.52 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
%%timeit grp = somedf.groupby('someBoolColumn')
grp['someBoolColumn'].count()
146 µs ± 1.47 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
somedf 有 7200 行和 24 列。
我找不到,
为什么首先将对象分配给变量 grp 的两个衬垫是 >3
快几倍,也不;如果这只是特定于 groupby 方法或 对 pandas 甚至 python 更通用的东西,例如,关于 变量赋值。
非常感谢您的启发,因为这确实有助于处理我想要处理的许多更大的数据帧,重复使用许多不同的参数组合。
【问题讨论】:
-
嗨,乔恩,你已经完成了this edit,你问的是你能做什么而不是编辑答案:这些你不能评论的限制是有原因的,here you can read why these limits exists and what you can do instead。祝你有美好的一天!
标签: python arrays performance pandas optimization