【发布时间】:2018-08-21 12:29:11
【问题描述】:
我正在使用 Apache Nutch + Solr 构建一个搜索引擎。
我正在使用bin/crawl 脚本进行抓取+索引。我已经索引了大约 50,000 个文档,现在,在每次迭代中,cleaning phase 大约需要 6 分钟 才能完成(而之前的阶段大约需要 2 分钟 )。
查看hadoop.log 文件时,我可以看到在每次迭代中,indexer.CleaningJob 阶段中删除的文档总数都会增加(当前为 11,700 个已删除文档)。
为什么需要这么长时间才能完成,我该怎么做才能解决这个问题?
如果能得到任何帮助,我将不胜感激!
【问题讨论】:
标签: hadoop solr web-crawler search-engine nutch