【发布时间】:2011-08-10 20:51:35
【问题描述】:
我有一个包含 ~2000 万行 (~1.5GB) 的文件。每一行的格式为:
entry_1 entry_2 entry_3 ......... entry_5
该文件包含重复文件,但格式为:
entry_2 entry_1 entry_3 ......... entry_5
有些行的内容是相同的,但前两个元素经常(可能总是)交换。
有人对如何从这种大小的文件中删除这种性质的重复项有任何建议吗?
谢谢。
【问题讨论】:
-
你有什么理由需要使用 python 吗?从 shell 来看,它非常简单且更高效 - 只需使用 head、tail 和 sort。
-
行的顺序重要吗?
-
那么你怎么知道entry_1和antry_2是否被交换了呢?并且您是否需要在正确订购这两个之后删除所有重复项?如果是这样,我建议在 python 中使用 1 pass 来修复 entry1/2,然后在命令行上使用
sort -u -
是只有entry_1和entry_2可以互换还是可以说entry_1和entry_5也可以互换。
-
行的顺序不重要,只能交换entry_1和entry_2。