Nutch + Solr - 清洁需要很长时间才能完成答案

【问题标题】：Nutch + Solr - Clean takes a very long time to completeNutch + Solr - 清洁需要很长时间才能完成
【发布时间】：2018-08-21 12:29:11
【问题描述】：

我正在使用 Apache Nutch + Solr 构建一个搜索引擎。

我正在使用bin/crawl 脚本进行抓取+索引。我已经索引了大约 50,000 个文档，现在，在每次迭代中，cleaning phase 大约需要 6 分钟 才能完成（而之前的阶段大约需要 2 分钟 )。

查看hadoop.log 文件时，我可以看到在每次迭代中，indexer.CleaningJob 阶段中删除的文档总数都会增加（当前为 11,700 个已删除文档）。

为什么需要这么长时间才能完成，我该怎么做才能解决这个问题？

如果能得到任何帮助，我将不胜感激！

【问题讨论】：

【解决方案1】：

选择哪些文档进行索引是不对称的。清洁：

在每个爬网周期中，只有最后一段中的文档会被索引/更新，因为需要内容（解析的数据和文本）
但是，CrawlDb 中包含的所有 404、重复、重定向等都将从索引中删除。虽然也可以使用基于 HTTP 响应状态的分段删除 404 和重定向，但某些作业会修改 CrawlDb 中的状态（例如，根据内容签名检测重复项）。

随着时间的推移，CrawlDb 会增长并变得比单个段大得多。这会减慢清洁工作的速度。您可以修改 bin/crawl 脚本以在不是每个周期都进行删除。

【讨论】：