倾倒 Nutch Crawldb

【问题标题】：Dumping Nutch Crawldb倾倒 Nutch Crawldb
【发布时间】：2013-08-26 14:02:42
【问题描述】：

如何获取状态为 3 (db_gone) 的所有 url 的 Nutch crawldb 转储。我使用的 Nutch 版本是 1.4。

我查看了 wiki，但不清楚如何执行此操作

【问题讨论】：

【解决方案1】：

Nutch 1.4 中的 CrawlDbReader 不会根据 Document 的状态生成 crawldb 的转储。在 Nutch 1.5 及更高版本中，您可以在 crawldb 读取过程中指定文档的状态，readdb 将生成具有指定状态的文档的转储。

[root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone

如果你想在 Nutch 1.4 中做同样的事情，你必须修改 org.apache.nutch.crawl.CrawlDbReader 类。

【讨论】：