【发布时间】:2018-09-07 04:06:54
【问题描述】:
我正在使用 Nutch 抓取网站并将其与 Solr 集成。 我正在抓取网站上的所有 URL,但只想索引其中的几个。
在 regex_urlfilter.txt 中添加 URL 模式将过滤来自 crawling 的 URL。但是,这不是我想要的。我想爬取所有网站,但只索引少数几个。
在索引时而不是在抓取时是否有类似 regex-urlfilter.txt 的东西?
【问题讨论】:
-
它最简单的解决方案是,你应该只抓取那些你想要索引的网站。不想索引的网站,单独抓取