【问题标题】:How to merge two crawldb in nutch如何在 nutch 中合并两个 crawldb
【发布时间】:2013-04-02 17:23:43
【问题描述】:

假设我有两台不同的机器正在使用 nutch 抓取两个不同的域。

现在我想将他们的 crawldb 合并为一个。我该怎么做?

我在某处读到过 - 命令:

bin/nutch mergedb <crawldb1> <crawldb2>

做我想做的事?

此外,如果假设其中一个 crawldb 是由本地托管网站的站点生成的,即说 wikipedia 爬行自己并将其存储为 crawldb1

还有一些其他网站可以说 stackoverflow 也做了同样的事情。

在这种情况下,我可以将这两个 crawldb 合并为一个,但它会修改它们以反映它们的实际 url 而不是相对的(我的意思是 url wrt 数据库的新位置)。

对不起,如果我在描述中不是很清楚。提前致谢

【问题讨论】:

    标签: search-engine web-crawler nutch


    【解决方案1】:

    只有一种方法可以确定它是否有效,请尝试一下。并首先阅读手册,您缺少合并的数据库参数。见http://wiki.apache.org/nutch/bin/nutch%20mergedb

    【讨论】:

    • 抱歉,我想我还没有得到答案。
    【解决方案2】:

    可以合并两个db,crawldb中的所有url都是完整存储的。 Nutch 从不​​存储相对于任何内容的 URL。

    您编写的命令会将 crawldb2 合并到 crawldb1

    如果要合并 crawldb localcrawldb 和 stackoverflowcrawldb

    你写

    bin/nutch crawldb mergecrawldb localcrawldb stackoverflowcrawldb

    并且两个 crawldb 都将合并到mergedcrawldb 中。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2020-09-18
      相关资源
      最近更新 更多