【发布时间】:2017-06-28 10:09:36
【问题描述】:
我注意到在每次 Nutch 爬网期间,发送到 Solr 的索引并不一致。有时会显示对网页的最新更改,有时会显示较旧的更改。
原因
注意到 Nutch 正在向 Solr 提供较旧的段的索引。
当前解决方案
在获取之前删除所有旧段,似乎可以解决问题。
问题
想知道这种方法是否有任何影响,或者我对此的理解是不正确的。还想知道为什么 Nutch 在抓取过程中不会自动删除旧段。
谢谢。
【问题讨论】:
我注意到在每次 Nutch 爬网期间,发送到 Solr 的索引并不一致。有时会显示对网页的最新更改,有时会显示较旧的更改。
原因
注意到 Nutch 正在向 Solr 提供较旧的段的索引。
当前解决方案
在获取之前删除所有旧段,似乎可以解决问题。
问题
想知道这种方法是否有任何影响,或者我对此的理解是不正确的。还想知道为什么 Nutch 在抓取过程中不会自动删除旧段。
谢谢。
【问题讨论】:
如果多个段(再次)被索引并且相同的包含在两个或多个段中,则不能保证最新版本被索引。这是一个已知问题 (NUTCH-1416)。最简单的解决方案是仅将最近获取的段发送到索引器。脚本bin/crawl 执行此操作,索引步骤在每个循环结束时针对在此循环中获取的段完成。
【讨论】: