【发布时间】:2021-12-05 00:19:15
【问题描述】:
我有很多 txt 文件,大约 10GB。我应该在我的程序中使用什么将它们合并到一个文件中而不重复?我想确保输出文件中的每一行都是唯一的。
我正在考虑制作某种哈希树并使用 MPI。我希望它有效。
【问题讨论】:
-
什么是“重复”?复制整个文件?文件中的重复行?文件中的字符重复?
-
cat *.txt | sort | uniq呢? -
(老实说,10 GB 在我的书中并不是“大数据”,但对于不同的人来说可能会有所不同,我猜这个标签有点“模棱两可”:))
-
sort -u *.txt如果您使用某种 *nix 应该没问题 - 或者您是否需要这些行与原始文件之一中的顺序相同? -
@SecurityBreach 排序是一种发现重复项的简单方法。你排序,然后你只检查连续的行是否相同(这真的是从根本上教授计算机科学的算法思维!这很有趣!)。
标签: c++ large-data