Nutch 如何避免爬取 CGI 生成的日历网页答案

【问题标题】：Nutch How to avoid crawl calendar webpage generated by CGINutch 如何避免爬取 CGI 生成的日历网页
【发布时间】：2012-01-27 05:43:12
【问题描述】：

我正在使用 Nutch 抓取一个大型网站。

网页由 CGI 程序生成。大多数网页的 URL 都包含 ?id=2323&title=foo 等表达式。

我想抓取这些网页，因为它们包含许多有用的信息。

但是，我面临的一个问题是这个网站有一个日历。也会生成一些类似日期的网页。这意味着 Nutch 会尝试抓取一些无辜的网页，例如 year=2030&month=12。

这很愚蠢。

如何避免 Nutch 中的这种陷阱？写很多正则表达式？

【问题讨论】：

【解决方案1】：

将正则表达式模式添加到conf/regex-urlfilter.txt 以指定接受或拒绝网址的规则。

【讨论】：