【问题标题】:Python pandas deduplicate data frame based on one column [duplicate]Python pandas基于一列去重数据框[重复]
【发布时间】:2020-04-26 06:13:00
【问题描述】:

我有一个像这样的数据框 (dfCust):

|cust_key|first_name|last_name|address        |
-----------------------------------------------
|12345   |John      |Doe      |123 Some street|
|12345   |John      |Doe      |123 Some st    |
|67890   |Jane      |Doe      |456 Some street|

我想基本上删除重复记录,使cust_key 字段是唯一的。我不关心被丢弃的记录,在发生这种情况时,地址已经被重复数据删除,所以唯一漏掉的是拼写错误。我想要以下结果数据框:

|cust_key|first_name|last_name|address        |
-----------------------------------------------
|12345   |John      |Doe      |123 Some street|
|67890   |Jane      |Doe      |456 Some street|

在 R 中,这基本上是这样完成的:

dfCust <- unique(setDT(dfCust), by = "cust_key")

但我需要一种在 pandas 中执行此操作的方法。

【问题讨论】:

  • df.drop_duplicates('cust_key') 用于删除基于单个列的重复项:cust_key
  • 完美,谢谢。我知道这是我缺少的一些小东西。如果您将此放入答案中,我会投票并接受!
  • 没关系,这是骗子:检查一下:stackoverflow.com/questions/50885093/…

标签: python pandas


【解决方案1】:
df.drop_duplicates(subset='cust_key')

【讨论】:

  • 如果数据框是分开的,那么它需要被连接
猜你喜欢
  • 1970-01-01
  • 2021-01-17
  • 2018-08-11
  • 2021-12-14
  • 2018-04-02
  • 2021-10-15
  • 1970-01-01
  • 2022-01-01
  • 2023-03-06
相关资源
最近更新 更多