【问题标题】:Apache Nutch crawler how to exclude static folders like; cgi-bin, images, css exclude from nutch crawler?Apache Nutch 爬虫如何排除静态文件夹之类的; cgi-bin,图像,css 从 nutch 爬虫中排除?
【发布时间】:2013-05-29 04:02:14
【问题描述】:

当我们运行爬虫时,我们会看到静态文件夹,例如: /cgi-bin、/images、/css 等在爬虫作业中弹出,我们希望将它们排除在爬网之外(不是它们最终在索引器中)并且我们不希望它们在索引器中,但是我们如何排除它们在爬虫中,所以它不会被这些静态文件夹占用?任何帮助表示赞赏。它是否有助于性能,不包括它们?现在我们看到它出于某种原因获取它们。 Nutch 爬虫 1.2,Lucene 索引器。

【问题讨论】:

    标签: apache hadoop lucene mapreduce nutch


    【解决方案1】:

    将拒绝规则添加到conf/regex-urlfilter.txt 文件。

    -cgi-bin
    -images
    -css
    

    请注意,这必须在接受所有规则之前添加,即。 +. 在正则表达式文件中。

    【讨论】:

    • 感谢您的快速回答,不胜感激。
    • @user2430823 如果您对答案感到满意,请点赞并接受答案
    • 嗨 Tejas,很抱歉我的回复迟了,答案很满意,但是不能投票。再次感谢您的帮助。
    猜你喜欢
    • 2018-06-07
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多