【问题标题】:how many shards are proper for each collections in solr?solr 中的每个集合有多少个分片合适?
【发布时间】:2019-03-09 20:38:44
【问题描述】:

我有一个 Solr 云(7.4 版),有 2 个节点(每个节点都有 10Gb SSD 硬盘和 256Gb 内存和 50Gb 堆)和 10 个集合。

一个集合有 12 亿个文档,其余集合有 1 亿个文档。

我们不知道有多少分片适合我的用例。

如何确定合适的着色器数量以及每个集合适合多少个 Shard?

有公式吗?

【问题讨论】:

标签: solr solrcloud


【解决方案1】:

分片应位于不同的硬件上以获得最佳性能(这就是您分片的原因)。现在有 2 个节点,您几乎应该选择 2 个分片。但是为了获得您所追求的性能,您可能需要更多节点并添加更多分片。

性能自然不仅仅是分片/节点数量的一个因素,还包括每个节点有多少内存(堆和堆外)、CPU、读/写混合、网络速度、磁盘 I/O 速度等. 更不用说与索引大小和预期负载相比的 autoCommit / autoSoftCommit 设置了。

【讨论】:

  • 您可以通过分片来并行处理多个较小的数据集,而不是(实际上)顺序处理单个大型数据集。这通常用多台较小的机器来完成,但如果你有一个大熨斗,处理多个碎片就很好了。我们在每台服务器上使用 25 个 300M 文档的分片在本地执行此操作:这在逻辑上更容易,而且对我们来说总体上更便宜。
  • 公平地说,您只需要确保您的磁盘有一个大“管道”并且磁盘可以处理 I/O :-)
猜你喜欢
  • 1970-01-01
  • 2019-06-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多