【发布时间】:2016-09-03 11:43:34
【问题描述】:
在下面的数据框中,我想消除重复的cid 值,以便df.groupby('date').cid.size() 的输出与df.groupby('date').cid.nunique() 的输出相匹配。
我看过这个post,但它似乎没有解决问题的可靠方法。
df = pd.read_csv('https://raw.githubusercontent.com/108michael/ms_thesis/master/crsp.dime.mpl.df')
df.groupby('date').cid.size()
date
2005 7
2006 237
2007 3610
2008 1318
2009 2664
2010 997
2011 6390
2012 2904
2013 7875
2014 3979
df.groupby('date').cid.nunique()
date
2005 3
2006 10
2007 227
2008 52
2009 142
2010 57
2011 219
2012 99
2013 238
2014 146
Name: cid, dtype: int64
我尝试过的事情:
-
df.groupby([df['date']]).drop_duplicates(cols='cid')给出此错误:AttributeError: Cannot access callable attribute 'drop_duplicates' of 'DataFrameGroupBy' objects, try using the 'apply' method -
df.groupby(('date').drop_duplicates('cid'))给出此错误:AttributeError: 'str' object has no attribute 'drop_duplicates'
【问题讨论】:
-
您的第二个属性错误只是由执行此引起的:
('date').drop_duplicates('cid'),它与熊猫无关。实际上,错误消息告诉您'date',一个str类型对象,没有一个名为drop_duplicates的属性。
标签: python pandas duplicates unique pandas-groupby