【问题标题】:Nutch + Solr - Clean takes a very long time to completeNutch + Solr - 清洁需要很长时间才能完成
【发布时间】:2018-08-21 12:29:11
【问题描述】:

我正在使用 Apache Nutch + Solr 构建一个搜索引擎。

我正在使用bin/crawl 脚本进行抓取+索引。我已经索引了大约 50,000 个文档,现在,在每次迭代中,cleaning phase 大约需要 6 分钟 才能完成(而之前的阶段大约需要 2 分钟 )。

查看hadoop.log 文件时,我可以看到在每次迭代中,indexer.CleaningJob 阶段中​​删除的文档总数都会增加(当前为 11,700 个已删除文档)。

为什么需要这么长时间才能完成,我该怎么做才能解决这个问题?

如果能得到任何帮助,我将不胜感激!

【问题讨论】:

    标签: hadoop solr web-crawler search-engine nutch


    【解决方案1】:

    选择哪些文档进行索引是不对称的。清洁:

    • 在每个爬网周期中,只有最后一段中的文档会被索引/更新,因为需要内容(解析的数据和文本)
    • 但是,CrawlDb 中包含的所有 404、重复、重定向等都将从索引中删除。虽然也可以使用基于 HTTP 响应状态的分段删除 404 和重定向,但某些作业会修改 CrawlDb 中的状态(例如,根据内容签名检测重复项)。

    随着时间的推移,CrawlDb 会增长并变得比单个段大得多。这会减慢清洁工作的速度。您可以修改 bin/crawl 脚本以在不是每个周期都进行删除。

    【讨论】:

      猜你喜欢
      • 2018-02-07
      • 2016-07-30
      • 2013-07-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多