【发布时间】:2012-01-27 05:43:12
【问题描述】:
我正在使用 Nutch 抓取一个大型网站。
网页由 CGI 程序生成。大多数网页的 URL 都包含 ?id=2323&title=foo 等表达式。
我想抓取这些网页,因为它们包含许多有用的信息。
但是,我面临的一个问题是这个网站有一个日历。也会生成一些类似日期的网页。这意味着 Nutch 会尝试抓取一些无辜的网页,例如 year=2030&month=12。
这很愚蠢。
如何避免 Nutch 中的这种陷阱?写很多正则表达式?
【问题讨论】:
标签: web-crawler nutch