【发布时间】:2016-01-25 12:43:28
【问题描述】:
我使用 Nutch-1.8 抓取网站,使用 solr 进行索引。我需要在不指定深度参数(-depth)的情况下抓取整个网站直到最后一个子链接
这是我用来抓取和索引网址的命令
命令: bin/crawl seed brainiademo http://localhost:8983/solr/10
语法:bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]
在上面的命令中,我不想指定深度参数,即 10。
为了在不指定深度参数的情况下抓取整个网站需要进行哪些配置更改?
【问题讨论】:
标签: web-crawler nutch