【问题标题】:nutch configuration to crawl entire website without specifying depthnutch 配置爬取整个网站而不指定深度
【发布时间】:2016-01-25 12:43:28
【问题描述】:

我使用 Nutch-1.8 抓取网站,使用 solr 进行索引。我需要在不指定深度参数(-depth)的情况下抓取整个网站直到最后一个子链接

这是我用来抓取和索引网址的命令

命令: bin/crawl seed brainiademo http://localhost:8983/solr/10

语法bin/nutch crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depth i] [-topN N]

在上面的命令中,我不想指定深度参数,即 10。

为了在不指定深度参数的情况下抓取整个网站需要进行哪些配置更改?

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    自 Nutch 1.11 起,您可以将深度值设置为 -1。见crawl script

    【讨论】:

    • 只需设置 -1 而不是 10。如上所述,不适用于 1.8
    • 你的意思是我必须在命令本身中指定深度-1?我试过了,它会将种子 url 注入到 crawldb 并且爬取过程将退出。我不会做任何迭代
    • 您使用的是哪个版本的 Nutch?
    • nutch-1.8 本身。 1.8 有转机吗?
    • 将 1.11 中爬虫脚本中的修改复制到你正在使用的版本中。顺便说一句,您至少可以将我的答案标记为有用,不是吗?
    【解决方案2】:

    我认为你做不到。但解决方法是将 nutch 配置为仅抓取来自同一域的链接,然后将抓取深度设置为非常大的数字(例如 100 万)。 Nutch 会在有要爬取的链接时继续爬取。一旦没有要抓取的url,不管深度限制,它都会停止。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-06-07
      • 1970-01-01
      • 1970-01-01
      • 2012-06-08
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多