【发布时间】:2020-04-26 06:13:00
【问题描述】:
我有一个像这样的数据框 (dfCust):
|cust_key|first_name|last_name|address |
-----------------------------------------------
|12345 |John |Doe |123 Some street|
|12345 |John |Doe |123 Some st |
|67890 |Jane |Doe |456 Some street|
我想基本上删除重复记录,使cust_key 字段是唯一的。我不关心被丢弃的记录,在发生这种情况时,地址已经被重复数据删除,所以唯一漏掉的是拼写错误。我想要以下结果数据框:
|cust_key|first_name|last_name|address |
-----------------------------------------------
|12345 |John |Doe |123 Some street|
|67890 |Jane |Doe |456 Some street|
在 R 中,这基本上是这样完成的:
dfCust <- unique(setDT(dfCust), by = "cust_key")
但我需要一种在 pandas 中执行此操作的方法。
【问题讨论】:
-
df.drop_duplicates('cust_key')用于删除基于单个列的重复项:cust_key -
完美,谢谢。我知道这是我缺少的一些小东西。如果您将此放入答案中,我会投票并接受!
-
没关系,这是骗子:检查一下:stackoverflow.com/questions/50885093/…