【发布时间】:2013-05-29 04:02:14
【问题描述】:
当我们运行爬虫时,我们会看到静态文件夹,例如: /cgi-bin、/images、/css 等在爬虫作业中弹出,我们希望将它们排除在爬网之外(不是它们最终在索引器中)并且我们不希望它们在索引器中,但是我们如何排除它们在爬虫中,所以它不会被这些静态文件夹占用?任何帮助表示赞赏。它是否有助于性能,不包括它们?现在我们看到它出于某种原因获取它们。 Nutch 爬虫 1.2,Lucene 索引器。
【问题讨论】:
标签: apache hadoop lucene mapreduce nutch