【问题标题】:Adding URL filter regexes through Nutch Rest API通过 Nutch Rest API 添加 URL 过滤器正则表达式
【发布时间】:2019-01-24 05:57:19
【问题描述】:

我正在使用 Nutch 1.12 版来抓取网址。我只需要抓取一些特定的网址。我知道可以使用regex-urlfilter 文件中的条目过滤网址。我想知道 Nutch REST API 中是否有任何选项可以将动态 url 正则表达式添加到这些文件中,就像nutch-site.xml 中的属性一样。

【问题讨论】:

    标签: java web-scraping web-crawler nutch


    【解决方案1】:

    据我所知,您可以更改配置(更改urlfilter.regex.file 键)但无法直接修改文件(默认为regex-urlfilter.txt)。您可以拥有不同的文件,然后将配置更改为指向不同的文件并重新启动作业。

    过去,我为从 Web UI 动态更改爬网选项(包括过滤器)做了一些事情。这是在我们拥有 REST API 之前。在这种情况下,自定义组件会从数据库中加载信息/配置选项。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多