【发布时间】:2013-03-21 22:36:54
【问题描述】:
我有一个包含 20,000 个域名的 txt 文件 (A.txt),每行一个。我有另一个 txt 文件 (B.txt),其中包含一起编译的数千条 Whois 记录。我想看看 B.txt 中没有引用 A.txt 中的哪些域。一件一件地做这件事很简单,但我怎么能批量做呢?谢谢
【问题讨论】:
-
不可以使用spreadsheets/Excel 吗?
标签: notepad++
我有一个包含 20,000 个域名的 txt 文件 (A.txt),每行一个。我有另一个 txt 文件 (B.txt),其中包含一起编译的数千条 Whois 记录。我想看看 B.txt 中没有引用 A.txt 中的哪些域。一件一件地做这件事很简单,但我怎么能批量做呢?谢谢
【问题讨论】:
标签: notepad++
您可以编辑文件 A.txt 以包含样式为 example.com A other stuff 的行,并编辑文件 B.txt 以包含格式为 example.com B other stuff 的行。然后将这两个文件排序在一起。接下来运行 Notepad++ 正则表达式替换,搜索 ^([^ ]+) A .*\r\n(\1 B ) 并替换为 \2。效果是任何与 B.txt 匹配的 A.txt 行都将被删除,留下 B.txt 行。如果有多个 A.txt 行与一个 B.txt 匹配,则运行替换两次或更多次,直到没有行被替换。最后,删除 B.txt 行(使用正则表达式查找并标记查找 ^([^ ]+) B 的行,然后删除带书签的行)留下不匹配的 A.txt 行。
不知道源文件 A.txt 和 B.txt 的格式,我无法建议使用正则表达式将 URL 后跟 A 或 B 放在行首。
【讨论】: