【发布时间】:2019-08-02 05:47:16
【问题描述】:
假设我运行 Apache Nutch 来抓取网站,并将文档添加到 Apache Solr 核心。假设我现在删除了包含 crawldb 的 Apache Nutch 目录。如果在此期间网站上的某些页面已被删除,而我现在运行新的爬网(使用新的 crawldb),则丢失的页面仍将被 Solr 索引。
通常,在旧的 crawldb 存在的情况下,Nutch 会尝试从之前的爬取中获取它所知道的所有页面,并且对于给出 404 的页面,它会指示 Solr 从其索引中删除它们。然而,在我的例子中,我已经删除了旧的 crawldb,所以 Nutch 将从头开始爬行,它不会知道以前可用的页面现在给出 404。
如果旧的 Nutch crawldb 已被删除(意外或其他原因),那么让 Nutch 删除 Solr 中的条目的适当方法是什么?也就是说,如何删除 Solr 中不在 Nutch crawldb 中的文档?
启动一个新的 Solr 核心并删除旧的 Solr 核心是唯一可用的选项吗?
【问题讨论】: