【问题标题】:Nutch Crawl - Deleting segments on each crawl implicationsNutch Crawl - 删除每次爬行影响的片段
【发布时间】:2017-06-28 10:09:36
【问题描述】:

我注意到在每次 Nutch 爬网期间,发送到 Solr 的索引并不一致。有时会显示对网页的最新更改,有时会显示较旧的更改。

原因

注意到 Nutch 正在向 Solr 提供较旧的段的索引。

当前解决方案

在获取之前删除所有旧段,似乎可以解决问题。

问题

想知道这种方法是否有任何影响,或者我对此的理解是不正确的。还想知道为什么 Nutch 在抓取过程中不会自动删除旧段。

谢谢。

【问题讨论】:

    标签: solr nutch


    【解决方案1】:

    如果多个段(再次)被索引并且相同的包含在两个或多个段中,则不能保证最新版本被索引。这是一个已知问题 (NUTCH-1416)。最简单的解决方案是仅将最近获取的段发送到索引器。脚本bin/crawl 执行此操作,索引步骤在每个循环结束时针对在此循环中获取的段完成。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多