【发布时间】:2021-10-17 22:31:36
【问题描述】:
我需要删除大型 .csv 文件 (50+GB) 的重复项,我想使用 python 来执行此操作。其他几个问题广泛地解决了这个问题(例如:here 和 here),但它们处理的是完全重复的问题。
在我的情况下,重复不是完全重复。我的文件的设置是这样的,我通过从多个来源中提取行来编译这个文件,并且一列表示来源。这意味着我想删除列子集的重复项。文件的大小意味着我无法将其加载到内存中,所以 pandas 已经出局了。
我该如何解决这个问题(可能修改我链接到的解决方案)?
【问题讨论】:
标签: python duplicates large-data