【发布时间】:2016-11-24 15:41:24
【问题描述】:
正如标题所说,我想查找并删除文件中的重复行。这很容易做到……关键是我想知道最快和最有效的方法是什么(假设你有数千兆字节的文件,你想尽可能高效和快速地做到这一点你可以)
如果您知道某种方法...复杂到可以做到这一点,我想知道。我听到了一些类似循环展开的东西,并开始怀疑最简单的事情是最快的,所以我很好奇。
【问题讨论】:
-
我在你链接的线程中没有看到任何关于性能问题的答案。
-
请edit您的问题显示what you have tried so far。您应该包含您遇到问题的代码的minimal reproducible example,然后我们可以尝试帮助解决具体问题。您还应该阅读How to Ask。
-
如果用 python 做这件事不是一个严格的要求,那么
uniq file_with_dupes > file_without_dupes可能是最简单和最快的方法。
标签: python