【问题标题】:Rejected URL List in Nutch 1.xNutch 1.x 中被拒绝的 URL 列表
【发布时间】:2018-01-08 10:29:21
【问题描述】:

我正在尝试从 Nutch 1.x 版本中的 seed.txt 获取所有被拒绝 URL 的列表。

使用nutch inject 命令,我可以知道被拒绝的 URL 的数量,但是有没有办法获得被拒绝的 URL 的完整列表?

【问题讨论】:

    标签: regex nutch


    【解决方案1】:

    您可以使用以下命令查看 URL 列表:

    cat seed_urls.txt | $NUTCH_HOME/bin/nutch filterchecker -stdin
    

    被拒绝的 URL 在行首用- 标记。当然,您必须使用与注入命令相同的 URL 过滤器配置来运行 filterchecker。

    注意:这是使用 Nutch 1.14 的命令,之前的版本需要参数 -allCombined 而不是 -stdin

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-11-30
      • 2018-01-28
      • 2020-11-28
      • 2018-09-24
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多