nutch 配置爬取整个网站而不指定深度答案

【问题标题】：nutch configuration to crawl entire website without specifying depthnutch 配置爬取整个网站而不指定深度
【发布时间】：2016-01-25 12:43:28
【问题描述】：

我使用 Nutch-1.8 抓取网站，使用 solr 进行索引。我需要在不指定深度参数（-depth）的情况下抓取整个网站直到最后一个子链接

这是我用来抓取和索引网址的命令

命令： bin/crawl seed brainiademo http://localhost:8983/solr/10

语法：bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]

在上面的命令中，我不想指定深度参数，即 10。

为了在不指定深度参数的情况下抓取整个网站需要进行哪些配置更改？

【问题讨论】：

【解决方案1】：

自 Nutch 1.11 起，您可以将深度值设置为 -1。见crawl script

【讨论】：

【解决方案2】：

我认为你做不到。但解决方法是将 nutch 配置为仅抓取来自同一域的链接，然后将抓取深度设置为非常大的数字（例如 100 万）。 Nutch 会在有要爬取的链接时继续爬取。一旦没有要抓取的url，不管深度限制，它都会停止。

【讨论】：