【发布时间】:2018-02-09 00:21:56
【问题描述】:
我有 14,000 个数据帧,每个数据帧有 30,000 行。一个示例 df 看起来像这样
urban restricted speed_bin
True False 0-2.5
True False 0-2.5
True False 0-2.5
True True 0-2.5
True False 2.5-4.5
我需要汇总所有数据帧的数据,但不能将其全部保存在内存中。我想计算每个数据框的唯一行组合。对于单个数据框,我可以做
df.groupby(['urban','restricted','speed_bin']).size().reset_index() \
.rename(columns={0:'count'})
urban restricted speed_bin count
0 False False 0-2.5 45
1 False False 2.5-7.5 12
2 False False 7.5-12.5 16
3 False False 12.5-17.5 20
4 False False 17.5-22.5 4
如何在将计数列作为行内容并保留urban 和speed_bin 列的同时,将其转置并从speed_bin 组合中创建列名?请记住,一个数据框可能没有另一个数据框可能具有的可能组合的实例。
所以,最后我将有四行对应于城市和限制的组合,并具有相应的速度箱计数。
提前致谢!
【问题讨论】:
-
你是什么意思“离开urban和speed_bin列”?这似乎与最后一句话不一致。
标签: python pandas combinations