【问题标题】:fast intersection, complement and union of tab-delimited text files?制表符分隔的文本文件的快速交集、补集和并集?
【发布时间】:2011-12-04 20:56:20
【问题描述】:

有人可以推荐一个基于 unix 的快速实用程序(最好用 C 语言编写)来获得高效的、流式交集/并集制表符分隔的文本文件吗?例如,允许查询诸如“给我文件 A 中的所有条目,其列值 K 未出现在文件 B 的任何列 K 中”。

例如,如果文件 A 是:

bob sally sue
bob mary john

而文件 B 是:

john sally sue
foo bar quux

然后在第 2 列上相对于 B 的文件 A 的补码将返回“bob mary john”,因为这是文件 B 中唯一在第 2 列中具有值但未出现在文件 B 中的值。

我不想使用数据库,但想要一个基于命令行的实用程序。 awk 是答案还是有更简单的? 谢谢。

【问题讨论】:

    标签: shell unix text command-line csv


    【解决方案1】:

    如果只是针对特定查询,我可能会使用 awk,散列 B 的 2. 列并根据散列过滤 A。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2016-06-02
      • 2020-08-16
      • 1970-01-01
      • 2011-09-22
      • 1970-01-01
      • 2016-02-24
      • 1970-01-01
      相关资源
      最近更新 更多