【发布时间】:2012-07-20 14:03:12
【问题描述】:
如何从大数字的大文件中删除重复项?这是一个关于算法和数据结构的面试问题,而不是sort -u 之类的问题。
我假设该文件不适合内存并且数字范围足够大,因此我无法使用内存计数/桶排序。
唯一的选项是查看是对文件进行排序(例如merge sort)并再次传递排序后的文件以过滤掉重复项。
这有意义吗。还有其他选择吗?
【问题讨论】:
-
您对输入的了解越多,选择/开发适当算法的位置就越好。
标签: algorithm data-structures language-agnostic