Python pandas基于一列去重数据框[重复]答案

【问题标题】：Python pandas deduplicate data frame based on one column [duplicate]Python pandas基于一列去重数据框[重复]
【发布时间】：2020-04-26 06:13:00
【问题描述】：

我有一个像这样的数据框 (dfCust)：

|cust_key|first_name|last_name|address        |
-----------------------------------------------
|12345   |John      |Doe      |123 Some street|
|12345   |John      |Doe      |123 Some st    |
|67890   |Jane      |Doe      |456 Some street|

我想基本上删除重复记录，使cust_key 字段是唯一的。我不关心被丢弃的记录，在发生这种情况时，地址已经被重复数据删除，所以唯一漏掉的是拼写错误。我想要以下结果数据框：

|cust_key|first_name|last_name|address        |
-----------------------------------------------
|12345   |John      |Doe      |123 Some street|
|67890   |Jane      |Doe      |456 Some street|

在 R 中，这基本上是这样完成的：

dfCust <- unique(setDT(dfCust), by = "cust_key")

但我需要一种在 pandas 中执行此操作的方法。

【问题讨论】：

df.drop_duplicates('cust_key') 用于删除基于单个列的重复项：cust_key
完美，谢谢。我知道这是我缺少的一些小东西。如果您将此放入答案中，我会投票并接受！
没关系，这是骗子：检查一下：stackoverflow.com/questions/50885093/…

标签： python pandas

【解决方案1】：

df.drop_duplicates(subset='cust_key')

【讨论】：

如果数据框是分开的，那么它需要被连接