Nutch：在索引时过滤 URL

【问题标题】：Nutch : Filter URLs at Indexing timeNutch：在索引时过滤 URL
【发布时间】：2018-09-07 04:06:54
【问题描述】：

我正在使用 Nutch 抓取网站并将其与 Solr 集成。我正在抓取网站上的所有 URL，但只想索引其中的几个。

在 regex_urlfilter.txt 中添加 URL 模式将过滤来自 crawling 的 URL。但是，这不是我想要的。我想爬取所有网站，但只索引少数几个。

在索引时而不是在抓取时是否有类似 regex-urlfilter.txt 的东西？

【问题讨论】：

【解决方案1】：

一步一步做的时候。

在重复数据删除步骤之前不要提供过滤器。一旦您的网址已更新为 crawlDb 并且您准备好索引，请向 regex-urlfilter.txt 提供过滤器。

做为bin/nutch index .... -filter

【讨论】：

是的，我尝试了 bin/nutch index .. -filter 选项。但是只会使用 regex-urlfilter.txt 吗？我们不能为此指定另一个文件吗？
-filter 选项将实例化配置文件中定义的所有 URL 过滤器，因此如果您有启用了不同 URL 过滤器的不同文件，您可以有 2 个过滤策略（在抓取时和在索引时） .