【问题标题】:Nutch is crawling only few links in a given domainNutch 只抓取给定域中的几个链接
【发布时间】:2015-07-15 04:10:07
【问题描述】:

问题出现在 ubuntu 12.04 的 Nutch 1.9 中。我正在尝试抓取网站中可用的链接。我在seed.txt 文件中给出了网站网址。除了 http.agent.name (New) 属性和 db.max.outlinks.per.page (-1) 之外,我没有对默认配置进行任何更改。我正在使用以下命令来爬取
crawl urls test -depth 3
Crawler 应该抓取 3 深度内的所有可用链接。但是当我运行以下 linkdb 命令时,只有 5 个链接可用。所有五个链接都在主页中可用

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我错过了任何配置更改吗?请帮帮我。

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    使用-topN设置每个级别中要抓取的url数量:

    bin/nutch 抓取 $URLS -dir $CRAWL_LOC -depth 3 -topN 1000

    【讨论】:

      【解决方案2】:

      在 Nutch 1.10 中,db.ignore.internal.links 默认为 true,这意味着链接 db 不会包含内部链接,只包含外部链接。如果您没有更改默认设置,那么链接 db 将不会反映爬取的范围。如果您希望它包含这些链接,您可以在配置文件中将此属性的值更改为 false。

      如果您想查看所有已抓取的链接,请转储抓取数据库。在 1.10 中,这是通过以下方式完成的:

      bin/nutch readdb MyCrawl/crawldb/ -dump crawlout
      

      我不确定 1.9 和 1.10 之间有什么区别,但我想这些命令是相似的。 (1.10 版本说明并未表明内部链接的处理方式发生了变化。)

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 2023-01-04
        • 2011-11-17
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多