【发布时间】:2013-08-27 23:40:08
【问题描述】:
假设我有一个 Confluence 实例,我想抓取它并将结果存储在 Solr 作为 Intranet 搜索引擎的一部分。
现在假设我只想在 Confluence 实例中存储页面的子集(匹配正则表达式)作为搜索引擎的一部分。
但是,我确实希望 Nutch 抓取所有其他页面,寻找匹配页面的链接——我只是不希望 Nutch 存储它们(或者至少我不希望Solr 在结果中返回它们)。
设置 Nutch->Solr 像这样工作的正常或最不痛苦的方法是什么?
【问题讨论】:
标签: solr search-engine nutch intranet