【发布时间】:2016-11-23 20:43:43
【问题描述】:
这是我的数据框:
import pandas as pd
df = pd.DataFrame({'A': [1, 2, 3, 4, 6, 4, 3, 2, 7]})
buckets = [(0,3),(3,5),(5,9)]
我也有上面提到的直方图桶。现在我想将每一行数据帧分配给存储桶索引。所以我想获得包含以下信息的新专栏:
df['buckets_index'] = [0,0,0,1,2,1,0,0,2]
当然,我可以使用循环来完成,但我有相当大的数据框(250 万行),所以我需要快速完成。
有什么想法吗?
【问题讨论】:
-
桶的限制是否会使得前一个桶的结尾总是与下一个桶的开始相同?
-
@Divakar,谢谢你的好问题。区间从左开右闭
(0,3], (3,5], (5,9],是的,限制很常见。 -
df.A中是否有任何元素不在任何存储桶中,即超出存储桶限制? -
@Divakar 这是可能的。
-
那么,这些输出的预期输出是什么?添加此类案例的示例?
标签: python performance pandas histogram vectorization