【问题标题】:How do I tell Nutch to crawl *through* a url without storing it?如何告诉 Nutch 在不存储 URL 的情况下抓取 *through* url?
【发布时间】:2013-08-27 23:40:08
【问题描述】:

假设我有一个 Confluence 实例,我想抓取它并将结果存储在 Solr 作为 Intranet 搜索引擎的一部分。

现在假设我只想在 Confluence 实例中存储页面的子集(匹配正则表达式)作为搜索引擎的一部分。

但是,我确实希望 Nutch 抓取所有其他页面,寻找匹配页面的链接——我只是不希望 Nutch 存储它们(或者至少我不希望Solr 在结果中返回它们)。

设置 Nutch->Solr 像这样工作的正常或最不痛苦的方法是什么?

【问题讨论】:

    标签: solr search-engine nutch intranet


    【解决方案1】:

    看起来这样做的唯一方法是编写自己的 IndexFilter 插件(或找人复制)。

    [正常工作时将在此处添加我的示例插件代码]

    参考资料:

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-05-04
      • 2013-03-10
      相关资源
      最近更新 更多