Nutch 只抓取给定域中的几个链接答案

【问题标题】：Nutch is crawling only few links in a given domainNutch 只抓取给定域中的几个链接
【发布时间】：2015-07-15 04:10:07
【问题描述】：

问题出现在 ubuntu 12.04 的 Nutch 1.9 中。我正在尝试抓取网站中可用的链接。我在seed.txt 文件中给出了网站网址。除了 http.agent.name (New) 属性和 db.max.outlinks.per.page (-1) 之外，我没有对默认配置进行任何更改。我正在使用以下命令来爬取
crawl urls test -depth 3
Crawler 应该抓取 3 深度内的所有可用链接。但是当我运行以下 linkdb 命令时，只有 5 个链接可用。所有五个链接都在主页中可用

nutch readlinkdb test/linkdb -dump myoutput/out1<br/>

我错过了任何配置更改吗？请帮帮我。

【问题讨论】：

标签： web-crawler nutch

【解决方案1】：

使用-topN设置每个级别中要抓取的url数量：

bin/nutch 抓取 $URLS -dir $CRAWL_LOC -depth 3 -topN 1000

【讨论】：

【解决方案2】：

在 Nutch 1.10 中，db.ignore.internal.links 默认为 true，这意味着链接 db 不会包含内部链接，只包含外部链接。如果您没有更改默认设置，那么链接 db 将不会反映爬取的范围。如果您希望它包含这些链接，您可以在配置文件中将此属性的值更改为 false。

如果您想查看所有已抓取的链接，请转储抓取数据库。在 1.10 中，这是通过以下方式完成的：

bin/nutch readdb MyCrawl/crawldb/ -dump crawlout

我不确定 1.9 和 1.10 之间有什么区别，但我想这些命令是相似的。（1.10 版本说明并未表明内部链接的处理方式发生了变化。）

【讨论】：