如何在 apache nutch 中更新 crawldb 中的获取状态？

【问题标题】：How to update the fetch status in crawldb in apache nutch?如何在 apache nutch 中更新 crawldb 中的获取状态？
【发布时间】：2016-04-17 07:19:55
【问题描述】：

我使用 apache nutch 进行了网络爬网.....我已经获取了两轮。它生成了一个抓取数据库，其中包含 21 个作为已获取状态的 url 和 537 个作为未获取状态的 url。由于某种原因，我想将 crawldb 中所有链接的状态更新为已获取。有什么方法可以更新状态吗？

【问题讨论】：

标签： apache web-crawler nutch

【解决方案1】：

我找到了问题的答案，并想与大家分享。获取两轮后，我使用命令“bin/nutch updatedb crawl/crawldb $s2”更新了数据库。然后数据库将使用新的 url 更新，状态为“未获取”。但是如果执行 'bin/nutch updatedb crawl/crawldb $s2 -noAdditions'，它不会将新的 url 添加到 db 并将已经存在的 url 状态为 'fetched'。

【讨论】：