【发布时间】:2016-06-02 20:37:13
【问题描述】:
我正在使用 Pandas、Jupyter Notebooks 和 Python。我有一个包含 4 列和 10000 条记录的数据集。目前,当我使用以下代码获取重复项时,代码以某种方式获取了不正确的记录。仅供参考:列的数据类型如下:
Initial_Date = int64
Final_Date = int64
Origin = object
sub_location = object
我当前的代码是:
dup = df.duplicated(['Initial_Date','Final_Date','Origin','sub_location'], keep='last')
以下是使用上述代码获取的数据集示例:
00121980,00121980,Australia,Brighton:Queensland
00121980,00121980,Australia,Brisbane:Queensland
17021987,17021987,Bangladesh,Sylhet-Sunamganj
17021987,17021987,Brazil,Sao Paolo suburb
如果您查看前两条记录:初始日期和最终日期以及 Origin 匹配但 sub_origin 不匹配,一条是布莱顿,另一条是布里斯班。
最后两条记录相同,日期匹配但来源不同。
据此,我了解到 df.duplicated 没有获取正确的记录,或者我没有正确使用它。数据类型对 df.duplicated 有影响吗?
如果我只使用df.duplicated,那么返回的布尔系列没有重复。有人可以解释/告诉我如何使用 .duplicated 吗?
请记住,这不是完整的数据集,但我提供的示例正是我在真实数据集中遇到的问题。我缩小了 df.duplicated 标准并遇到了这个错误。
谢谢大家:D
【问题讨论】:
标签: python pandas dataframe duplicates jupyter