【问题标题】:Nutch 2.x run every URL every timeNutch 2.x 每次运行每个 URL
【发布时间】:2015-06-24 06:08:44
【问题描述】:

在 Nutch 2.2.1 中,当我每次运行 Nutch 时,它都会爬取包括我已经爬过的所有 URL。无论 Nutch 运行多少次,我都希望一个 URL 只被抓取一次。如何配置?

【问题讨论】:

    标签: nutch


    【解决方案1】:

    抓取一个网站后,Nutch 将该网站的 URL 标记为 FETCHED URL,在下一轮抓取时不再抓取该 URL。默认情况下,Nutch 将在 30 天后重新抓取。您可以通过修改 db.fetch.interval.default 属性来更改页面重新提取之间的默认秒数。

    希望对你有帮助,

    乐国岛

    【讨论】:

    • 但是我用的是mysql,我在table网页中看到两列:fetchtime和prevfetchtime,每次我重新爬网站,这两个字段都会改变...
    猜你喜欢
    • 1970-01-01
    • 2018-12-19
    • 2023-03-08
    • 2012-01-09
    • 1970-01-01
    • 2016-07-24
    • 1970-01-01
    • 2018-02-05
    • 1970-01-01
    相关资源
    最近更新 更多