【问题标题】:Nutch : Filter URLs at Indexing timeNutch:在索引时过滤 URL
【发布时间】:2018-09-07 04:06:54
【问题描述】:

我正在使用 Nutch 抓取网站并将其与 Solr 集成。 我正在抓取网站上的所有 URL,但只想索引其中的几个。

regex_urlfilter.txt 中添加 URL 模式将过滤来自 crawling 的 URL。但是,这不是我想要的。我想爬取所有网站,但只索引少数几个。

在索引时而不是在抓取时是否有类似 regex-urlfilter.txt 的东西?

【问题讨论】:

  • 它最简单的解决方案是,你应该只抓取那些你想要索引的网站。不想索引的网站,单独抓取

标签: url indexing solr nutch


【解决方案1】:

一步一步做的时候。

在重复数据删除步骤之前不要提供过滤器。一旦您的网址已更新为 crawlDb 并且您准备好索引,请向 regex-urlfilter.txt 提供过滤器。

做为bin/nutch index .... -filter

【讨论】:

  • 是的,我尝试了 bin/nutch index .. -filter 选项。但是只会使用 regex-urlfilter.txt 吗?我们不能为此指定另一个文件吗?
  • -filter 选项将实例化配置文件中定义的所有 URL 过滤器,因此如果您有启用了不同 URL 过滤器的不同文件,您可以有 2 个过滤策略(在抓取时和在索引时) .
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-03-27
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多