【发布时间】:2014-11-17 02:43:27
【问题描述】:
我是 Nutch 新手,正在使用 Nutch 1.9 进行 POC。我只是想抓取我自己的网站来设置搜索。我发现我做的第一次抓取只抓取一个页面。第二个爬取 40 个页面,第三个爬取 300 个页面。增量减少,总共爬取大约 400 个页面。有谁知道为什么它不只是在第一次运行时对网站进行全面爬网?我使用了 nutch 教程 (http://wiki.apache.org/nutch/NutchTutorial) 并按照第 3.5 节使用脚本运行。
我还发现,通过多次运行,它无论如何都不会抓取整个网站 - GSA 为同一网站带回了 900 多个页面 - nutch 带回了 400 个页面。
谢谢
杰森
【问题讨论】:
标签: nutch