【问题标题】:Solr Re-indexing taking timeSolr 重新索引需要时间
【发布时间】:2017-04-04 15:39:03
【问题描述】:

我们已将 1.43 亿行(文档)的数据索引到 solr。索引大约需要 3 个小时。我使用 csvUpdateHandler 并通过远程流对 csv 文件进行索引。 现在,虽然我重新索引相同的 csv 数据,但仍需要 3 个多小时。

理想情况下,由于_id值没有变化,应该很快就完成了。有什么方法可以加快重新索引的速度吗?

请帮忙。

【问题讨论】:

  • 我们真的在谈论 .. 143 个文件吗?只有 143 个?
  • 哦,这是一个错字,它是 1.43 亿行..

标签: indexing solr


【解决方案1】:

在实际提交数据时,您几乎可以做到尽可能高效 - 一个可能的变化是只提交您知道由于某些外部因素而发生变化的数据。

无论如何,Solr 都必须查询每个值的索引,然后在重新索引之前确定哪些字段已更改,这可能会比它已经更昂贵。

对于这么多文件,3 小时是相当不错的。您应该努力减少提交的行数,以便总工作量少于过去。如果 CSV 已排序并且仅附加行,请保持最后一个 _id 可用,并且仅在将 CSV 提交到 Solr 之前提交 id 之后存在的 CSV 行。

【讨论】:

  • 感谢您的信息..:-)
猜你喜欢
  • 1970-01-01
  • 2020-12-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2015-11-03
  • 1970-01-01
  • 2011-12-26
  • 1970-01-01
相关资源
最近更新 更多