【发布时间】:2014-05-02 06:34:13
【问题描述】:
我有一个包含 4 个段的 Nutch 爬网,这些段使用 bin/nutch solrindex 命令完全索引。现在我在盒子上的存储空间都用完了,我可以删除 4 个段并只保留 crawldb 并从我离开它的地方继续爬吗?
由于所有段都被合并并索引到 Solr,我没有看到删除段有问题,还是我错了?
【问题讨论】:
标签: solr web-crawler nutch
我有一个包含 4 个段的 Nutch 爬网,这些段使用 bin/nutch solrindex 命令完全索引。现在我在盒子上的存储空间都用完了,我可以删除 4 个段并只保留 crawldb 并从我离开它的地方继续爬吗?
由于所有段都被合并并索引到 Solr,我没有看到删除段有问题,还是我错了?
【问题讨论】:
标签: solr web-crawler nutch
感谢 Nutch 邮件列表的帮助,我发现我可以删除这些片段。
【讨论】: