【问题标题】:Dumping Nutch Crawldb倾倒 Nutch Crawldb
【发布时间】:2013-08-26 14:02:42
【问题描述】:

如何获取状态为 3 (db_gone) 的所有 url 的 Nutch crawldb 转储。我使用的 Nutch 版本是 1.4。

我查看了 wiki,但不清楚如何执行此操作

【问题讨论】:

    标签: solr nutch


    【解决方案1】:

    Nutch 1.4 中的 CrawlDbReader 不会根据 Document 的状态生成 crawldb 的转储。在 Nutch 1.5 及更高版本中,您可以在 crawldb 读取过程中指定文档的状态,readdb 将生成具有指定状态的文档的转储。

    [root@srchengn nutch]# bin/nutch readdb <path_crawldb> -dump <output_directory> -status db_gone
    

    如果你想在 Nutch 1.4 中做同样的事情,你必须修改 org.apache.nutch.crawl.CrawlDbReader 类。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-08-02
      • 1970-01-01
      • 2012-04-14
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多