【发布时间】:2018-01-08 10:29:21
【问题描述】:
我正在尝试从 Nutch 1.x 版本中的 seed.txt 获取所有被拒绝 URL 的列表。
使用nutch inject 命令,我可以知道被拒绝的 URL 的数量,但是有没有办法获得被拒绝的 URL 的完整列表?
【问题讨论】:
我正在尝试从 Nutch 1.x 版本中的 seed.txt 获取所有被拒绝 URL 的列表。
使用nutch inject 命令,我可以知道被拒绝的 URL 的数量,但是有没有办法获得被拒绝的 URL 的完整列表?
【问题讨论】:
您可以使用以下命令查看 URL 列表:
cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin
被拒绝的 URL 在行首用- 标记。当然,您必须使用与注入命令相同的 URL 过滤器配置来运行 filterchecker。
注意:这是使用 Nutch 1.14 的命令,之前的版本需要参数 -allCombined 而不是 -stdin。
【讨论】: