【问题标题】:Nutch How to avoid crawl calendar webpage generated by CGINutch 如何避免爬取 CGI 生成的日历网页
【发布时间】:2012-01-27 05:43:12
【问题描述】:

我正在使用 Nutch 抓取一个大型网站。

网页由 CGI 程序生成。大多数网页的 URL 都包含 ?id=2323&title=foo 等表达式。

我想抓取这些网页,因为它们包含许多有用的信息。

但是,我面临的一个问题是这个网站有一个日历。也会生成一些类似日期的网页。这意味着 Nutch 会尝试抓取一些无辜的网页,例如 year=2030&month=12

这很愚蠢。

如何避免 Nutch 中的这种陷阱?写很多正则表达式?

【问题讨论】:

    标签: web-crawler nutch


    【解决方案1】:

    将正则表达式模式添加到conf/regex-urlfilter.txt 以指定接受或拒绝网址的规则。

    【讨论】:

      猜你喜欢
      • 2019-10-26
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-10-23
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多