【发布时间】:2013-04-02 17:23:43
【问题描述】:
假设我有两台不同的机器正在使用 nutch 抓取两个不同的域。
现在我想将他们的 crawldb 合并为一个。我该怎么做?
我在某处读到过 - 命令:
bin/nutch mergedb <crawldb1> <crawldb2>
做我想做的事?
此外,如果假设其中一个 crawldb 是由本地托管网站的站点生成的,即说 wikipedia 爬行自己并将其存储为 crawldb1
还有一些其他网站可以说 stackoverflow 也做了同样的事情。
在这种情况下,我可以将这两个 crawldb 合并为一个,但它会修改它们以反映它们的实际 url 而不是相对的(我的意思是 url wrt 数据库的新位置)。
对不起,如果我在描述中不是很清楚。提前致谢
【问题讨论】:
标签: search-engine web-crawler nutch