【发布时间】:2011-09-22 20:12:48
【问题描述】:
如何根据原始文本计算两个文本文件之间的交集?解决方案是使用 shell 命令还是用 Python、Elisp 或其他常见脚本语言表达都没有关系。
我知道comm 和grep -Fxv -f file1 file2。两者都假设我对 lines 的交集感兴趣,而我对 characters 的交集感兴趣(最少需要算作匹配的字符数)。
效率加分。
示例
如果文件 1 包含
foo bar baz-fee
并且文件 2 包含
fee foo bar-faa
那我想看看
foo barfee
假设最小匹配长度为 3。
【问题讨论】:
-
所以你说的是文字?或者两个文件中出现的每个长度≥3的子字符串? (我不知道通用的 unix 工具;您可能需要进行一些动态编程。)
标签: python bash text emacs grep