【问题标题】:How to find duplicate cell and remove entire row in a CSV with python如何使用python查找重复单元格并删除CSV中的整行
【发布时间】:2020-08-11 07:10:35
【问题描述】:

我有一个 csv,其中的数据看起来像这样:

john, 10002
max, 10003
lucy, 10004
steve, 10005
dave, 10005
sara, 10004

我想删除任何具有重复第二个单元格的行(其中包含数字的单元格) 例如,上面的数据会变成:

   john, 10002
    max, 10003

我有研究发现并删除重复项,但我发现的所有示例都只删除了重复的单元格,或者只查找与另一行完全重复的行,而不仅仅是一个单元格中的重复项。有人知道我该怎么做吗?

【问题讨论】:

  • 使用pandas

标签: python python-3.x csv


【解决方案1】:

使用pandas 库并将drop_duplicateskeep=False 一起使用

import pandas as pd

df = pd.read_csv('a.csv') # Your File name

df.drop_duplicates('id', keep=False)
df.to_csv('dedup.csv', index=False)

print(df)

输出:

   name     id
0  john  10002
1   max  10003

【讨论】:

  • 谢谢!有没有办法让它执行相反的操作?那么在这种情况下,它只会删除不重复的行?
猜你喜欢
  • 1970-01-01
  • 2020-08-24
  • 2021-08-09
  • 2021-07-16
  • 2020-05-11
  • 1970-01-01
  • 1970-01-01
  • 2015-08-08
  • 1970-01-01
相关资源
最近更新 更多