【发布时间】:2017-05-08 10:53:02
【问题描述】:
我有一个格式如下的数据框:
UserId, CurrentUserLocationId, RegisteredUserLocationId, RestorauntId
我想统计密钥(UserId, CurrentUserLocationId, RegisteredUserLocationId)的唯一出现次数
例如,如果(1, 1, 1) 出现一次,我希望停止计数并将其包含在最终结果中。所以出现的每对独特的配对我只需要计算一次。
我尝试使用groupby(['col1', 'col2', 'col3']).size() 但这会计算所有记录。我将使用代码的数据集有十亿条记录。
有没有内置的方法来完成我想要做的事情?或者更准确地说,进行这种计数的最快方法是什么?
【问题讨论】:
标签: python database pandas numpy anaconda