【发布时间】:2021-01-21 17:42:21
【问题描述】:
尝试使用 DataFrame.drop_duplicates 参数,但没有成功,因为没有删除重复项。
希望根据列“inc_id”删除。如果在该列中找到重复项,则应仅保留最后一行。
我的 df 是:
inc_id inc_cr_date
0 1049670 121
1 1049670 55
2 1049667 121
3 1049640 89
4 1049666 12
5 1049666 25
输出应该是:
inc_id inc_cr_date
0 1049670 55
1 1049667 121
2 1049640 89
3 1049666 25
代码是:
df = df.drop_duplicates(subset='inc_id', keep="last")
知道我在这里缺少什么吗?谢谢。
【问题讨论】:
-
您能否发布您得到的看似错误的输出?
-
其实不是错误,但是df系列继续重复。谢谢