【问题标题】:Incremental crawling in NutchNutch 中的增量爬行
【发布时间】:2014-11-17 02:43:27
【问题描述】:

我是 Nutch 新手,正在使用 Nutch 1.9 进行 POC。我只是想抓取我自己的网站来设置搜索。我发现我做的第一次抓取只抓取一个页面。第二个爬取 40 个页面,第三个爬取 300 个页面。增量减少,总共爬取大约 400 个页面。有谁知道为什么它不只是在第一次运行时对网站进行全面爬网?我使用了 nutch 教程 (http://wiki.apache.org/nutch/NutchTutorial) 并按照第 3.5 节使用脚本运行。

我还发现,通过多次运行,它无论如何都不会抓取整个网站 - GSA 为同一网站带回了 900 多个页面 - nutch 带回了 400 个页面。

谢谢

杰森

【问题讨论】:

    标签: nutch


    【解决方案1】:

    据我所知,

    Nutch 抓取已知链接并从已知页面获取内链接和外链接,然后将这些链接添加到数据库中以进行下一次抓取。这似乎是为什么 nutch 没有一次运行爬取所有页面。

    增量抓取是指只抓取新的或更新的页面,保留未修改的页面。

    由于您的配置设置,Nutch 只能抓取有限的页面。将其更改为抓取所有页面。见here

    如果您想搜索一个网站,请查看Aperture。它将在一次运行中抓取整个网站。它提供增量支持。

    【讨论】:

      【解决方案2】:

      为什么不使用 Nutch 邮件列表?您会从 Nutch 其他用户那里获得更多的受众和更快的答案。

      您在使用爬网脚本时为轮数设置了什么值?将其设置为 1 意味着您不会比种子列表中的 URL 走得更远。使用较大的值在一次脚本调用中抓取整个网站。

      URL 总数的差异可能是 Kumar 建议的每页参数的最大 oulinks,但也可能是由于 URL 过滤造成的。

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        • 1970-01-01
        相关资源
        最近更新 更多