制表符分隔的文本文件的快速交集、补集和并集？答案

【问题标题】：fast intersection, complement and union of tab-delimited text files?制表符分隔的文本文件的快速交集、补集和并集？
【发布时间】：2011-12-04 20:56:20
【问题描述】：

有人可以推荐一个基于 unix 的快速实用程序（最好用 C 语言编写）来获得高效的、流式交集/并集制表符分隔的文本文件吗？例如，允许查询诸如“给我文件 A 中的所有条目，其列值 K 未出现在文件 B 的任何列 K 中”。

例如，如果文件 A 是：

bob sally sue
bob mary john

而文件 B 是：

john sally sue
foo bar quux

然后在第 2 列上相对于 B 的文件 A 的补码将返回“bob mary john”，因为这是文件 B 中唯一在第 2 列中具有值但未出现在文件 B 中的值。

我不想使用数据库，但想要一个基于命令行的实用程序。 awk 是答案还是有更简单的？谢谢。

【问题讨论】：

【解决方案1】：

如果只是针对特定查询，我可能会使用 awk，散列 B 的 2. 列并根据散列过滤 A。

【讨论】：