【发布时间】:2015-06-24 06:08:44
【问题描述】:
在 Nutch 2.2.1 中,当我每次运行 Nutch 时,它都会爬取包括我已经爬过的所有 URL。无论 Nutch 运行多少次,我都希望一个 URL 只被抓取一次。如何配置?
【问题讨论】:
标签: nutch
在 Nutch 2.2.1 中,当我每次运行 Nutch 时,它都会爬取包括我已经爬过的所有 URL。无论 Nutch 运行多少次,我都希望一个 URL 只被抓取一次。如何配置?
【问题讨论】:
标签: nutch
抓取一个网站后,Nutch 将该网站的 URL 标记为 FETCHED URL,在下一轮抓取时不再抓取该 URL。默认情况下,Nutch 将在 30 天后重新抓取。您可以通过修改 db.fetch.interval.default 属性来更改页面重新提取之间的默认秒数。
希望对你有帮助,
乐国岛
【讨论】: