Nutch 中的增量爬行答案

【问题标题】：Incremental crawling in NutchNutch 中的增量爬行
【发布时间】：2014-11-17 02:43:27
【问题描述】：

我是 Nutch 新手，正在使用 Nutch 1.9 进行 POC。我只是想抓取我自己的网站来设置搜索。我发现我做的第一次抓取只抓取一个页面。第二个爬取 40 个页面，第三个爬取 300 个页面。增量减少，总共爬取大约 400 个页面。有谁知道为什么它不只是在第一次运行时对网站进行全面爬网？我使用了 nutch 教程 (http://wiki.apache.org/nutch/NutchTutorial) 并按照第 3.5 节使用脚本运行。

我还发现，通过多次运行，它无论如何都不会抓取整个网站 - GSA 为同一网站带回了 900 多个页面 - nutch 带回了 400 个页面。

谢谢

杰森

【问题讨论】：

标签： nutch

【解决方案1】：

据我所知，

Nutch 抓取已知链接并从已知页面获取内链接和外链接，然后将这些链接添加到数据库中以进行下一次抓取。这似乎是为什么 nutch 没有一次运行爬取所有页面。

增量抓取是指只抓取新的或更新的页面，保留未修改的页面。

由于您的配置设置，Nutch 只能抓取有限的页面。将其更改为抓取所有页面。见here

如果您想搜索一个网站，请查看Aperture。它将在一次运行中抓取整个网站。它提供增量支持。

【讨论】：

【解决方案2】：

为什么不使用 Nutch 邮件列表？您会从 Nutch 其他用户那里获得更多的受众和更快的答案。

您在使用爬网脚本时为轮数设置了什么值？将其设置为 1 意味着您不会比种子列表中的 URL 走得更远。使用较大的值在一次脚本调用中抓取整个网站。

URL 总数的差异可能是 Kumar 建议的每页参数的最大 oulinks，但也可能是由于 URL 过滤造成的。

【讨论】：