【发布时间】:2016-03-28 21:36:06
【问题描述】:
我刚从 pandas 开始,我想知道如何计算每家公司每年的文档数量(唯一)
我的数据是: df
year document_id company
0 1999 3 Orange
1 1999 5 Orange
2 1999 3 Orange
3 2001 41 Banana
4 2001 21 Strawberry
5 2001 18 Strawberry
6 2002 44 Orange
最后,我想要一个像这样的新数据框
year document_id company nbDocument
0 1999 [3,5] Orange 2
1 2001 [21] Banana 1
2 2001 [21,18] Strawberry 2
3 2002 [44] Orange 1
我试过了:
count2 = apyData.groupby(['year','company']).agg({'document_id': pd.Series.value_counts})
但是使用groupby 操作,我无法拥有这种结构并计算 1999 年 Orange 的唯一值,有没有办法做到这一点?
谢谢
【问题讨论】:
-
Banana的document_id不应该是[41]吗?
标签: python pandas dataframe frequency