【发布时间】:2013-06-13 10:29:25
【问题描述】:
我有一个这样的 csv 文件:
column1 column2
john kerry
adam stephenson
ashley hudson
john kerry
etc..
我想从这个文件中删除重复项,只得到:
column1 column2
john kerry
adam stephenson
ashley hudson
我编写了这个脚本,它根据姓氏删除重复项,但我需要根据姓氏和名字删除重复项。
import csv
reader=csv.reader(open('myfilewithduplicates.csv', 'r'), delimiter=',')
writer=csv.writer(open('myfilewithoutduplicates.csv', 'w'), delimiter=',')
lastnames = set()
for row in reader:
if row[1] not in lastnames:
writer.writerow(row)
lastnames.add( row[1] )
【问题讨论】:
-
“我编写了这个脚本,它根据名称删除重复项,但我需要根据名称和名字删除重复项。”我在这里很困惑。当你说名字时,你的意思是名字,姓氏还是串联?您的脚本仅适用于姓氏。
-
抱歉不清楚,我想删除基于姓氏(column2)和名字(column1)的重复项
标签: python