【问题标题】:How to update the fetch status in crawldb in apache nutch?如何在 apache nutch 中更新 crawldb 中的获取状态?
【发布时间】:2016-04-17 07:19:55
【问题描述】:

我使用 apache nutch 进行了网络爬网.....我已经获取了两轮。它生成了一个抓取数据库,其中包含 21 个作为已获取状态的 url 和 537 个作为未获取状态的 url。由于某种原因,我想将 crawldb 中所有链接的状态更新为已获取。有什么方法可以更新状态吗?

【问题讨论】:

    标签: apache web-crawler nutch


    【解决方案1】:

    我找到了问题的答案,并想与大家分享。获取两轮后,我使用命令“bin/nutch updatedb crawl/crawldb $s2”更新了数据库。然后数据库将使用新的 url 更新,状态为“未获取”。但是如果执行 'bin/nutch updatedb crawl/crawldb $s2 -noAdditions',它不会将新的 url 添加到 db 并将已经存在的 url 状态为 'fetched'。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-11-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多