如何告诉 Nutch 在不存储 URL 的情况下抓取 *through* url？答案

【问题标题】：How do I tell Nutch to crawl *through* a url without storing it?如何告诉 Nutch 在不存储 URL 的情况下抓取 *through* url？
【发布时间】：2013-08-27 23:40:08
【问题描述】：

假设我有一个 Confluence 实例，我想抓取它并将结果存储在 Solr 作为 Intranet 搜索引擎的一部分。

现在假设我只想在 Confluence 实例中存储页面的子集（匹配正则表达式）作为搜索引擎的一部分。

但是，我确实希望 Nutch 抓取所有其他页面，寻找匹配页面的链接——我只是不希望 Nutch 存储它们（或者至少我不希望Solr 在结果中返回它们）。

设置 Nutch->Solr 像这样工作的正常或最不痛苦的方法是什么？

【问题讨论】：

标签： solr search-engine nutch intranet

【解决方案1】：

看起来这样做的唯一方法是编写自己的 IndexFilter 插件（或找人复制）。

[正常工作时将在此处添加我的示例插件代码]

参考资料：

【讨论】：