Python - 从数据框中计算不同的行答案

【问题标题】：Python - count distinct rows from a dataframePython - 从数据框中计算不同的行
【发布时间】：2017-05-08 10:53:02
【问题描述】：

我有一个格式如下的数据框：

UserId, CurrentUserLocationId, RegisteredUserLocationId, RestorauntId

我想统计密钥(UserId, CurrentUserLocationId, RegisteredUserLocationId)的唯一出现次数

例如，如果(1, 1, 1) 出现一次，我希望停止计数并将其包含在最终结果中。所以出现的每对独特的配对我只需要计算一次。

我尝试使用groupby(['col1', 'col2', 'col3']).size() 但这会计算所有记录。我将使用代码的数据集有十亿条记录。

有没有内置的方法来完成我想要做的事情？或者更准确地说，进行这种计数的最快方法是什么？

【问题讨论】：

【解决方案1】：

DataFrame.drop_duplicates()
DataFrame.count

如有必要，在删除重复数据之前复制数据帧，并且在制作重复数据帧时仅在您希望成为唯一组合的列中调用。

【讨论】：