【发布时间】:2017-02-19 21:37:22
【问题描述】:
我有两个文件。第一个文件有三十万条记录显示示例 (file1),第二个文件有十万条记录,显示示例 (file2)。我基本上用file1 对file2 上的每个条目进行grep,并检索file1 中的所有内容。我正在使用普通的 for 循环执行此操作:
for i in `cat file2.txt`; do cat file1 | grep -i -w $i; done > /var/tmp/file3.txt
由于数据太大,我需要 8 多个小时才能完成此操作。我需要您的专业知识,让我选择如何以有效的方式在不到 2-3 小时内完成此操作.
示例条目
文件1
server1:user1:x:13621:22324:User One:/users/user1:/bin/ksh |
server1:user2:x:14537:100:User two:/users/user2:/bin/bash |
server1:user3:x:14598:24:User three:/users/user3:/bin/bash |
server1:user4:x:14598:24:User Four:/users/user4:/bin/bash |
server1:user5:x:14598:24:User Five:/users/user5:/bin/bash |
文件2
user1
user2
user3
【问题讨论】:
-
当我遇到类似的问题时,我不得不重新编译 grep,以便
-Ff选项使用的缓冲区将整个搜索目标文件都放入其中。gnu-@987654331 可能@ 选项自动调整它的内存消耗。但是使用man grep并阅读有关-F的信息。另请查看是否有限制部分。否则,您可以使用awk构建类似的工具(假设有足够的可用内存来保存所有file2。在此处搜索已发布的类似 Q。祝您好运。 -
嗨 Shelter,感谢您的回复,这是手册页中的内容,您建议我执行 grep -fF 看看是否有帮助? -F 使用固定字符串进行匹配。将每个指定的模式视为字符串而不是正则表达式。如果输入行包含作为连续字节序列的任何模式,则匹配该行。空字符串匹配每一行。有关详细信息,请参阅 fgrep(1)。
-
这可以被认为是这里许多类似帖子的重复。例如看这篇文章:stackoverflow.com/questions/42239179/…
-
谢谢乔治,你说得对,我可以从你分享的帖子中获取一些东西,这将帮助我得到我想要的东西。非常感谢,我会将这个问题标记为已完成。
-
同时,cat +grep 是一个糟糕的选择。您可以直接 grep 文件,您不需要先有猫。您还可以自动为 grep 提供模式,甚至不需要 file2 的循环。因此,您可以用一个简单的命令替换您的整个代码:
grep -f file2 file1甚至更好的grep -F -f file2 file1。不要害怕使用 -F。
标签: shell file file-comparison data-comparison