【发布时间】:2019-01-24 05:57:19
【问题描述】:
我正在使用 Nutch 1.12 版来抓取网址。我只需要抓取一些特定的网址。我知道可以使用regex-urlfilter 文件中的条目过滤网址。我想知道 Nutch REST API 中是否有任何选项可以将动态 url 正则表达式添加到这些文件中,就像nutch-site.xml 中的属性一样。
【问题讨论】:
标签: java web-scraping web-crawler nutch
我正在使用 Nutch 1.12 版来抓取网址。我只需要抓取一些特定的网址。我知道可以使用regex-urlfilter 文件中的条目过滤网址。我想知道 Nutch REST API 中是否有任何选项可以将动态 url 正则表达式添加到这些文件中,就像nutch-site.xml 中的属性一样。
【问题讨论】:
标签: java web-scraping web-crawler nutch
据我所知,您可以更改配置(更改urlfilter.regex.file 键)但无法直接修改文件(默认为regex-urlfilter.txt)。您可以拥有不同的文件,然后将配置更改为指向不同的文件并重新启动作业。
过去,我为从 Web UI 动态更改爬网选项(包括过滤器)做了一些事情。这是在我们拥有 REST API 之前。在这种情况下,自定义组件会从数据库中加载信息/配置选项。
【讨论】: