如何扩展弹性搜索，使其每秒可以索引大量文档？答案

【问题标题】：How to scale elasticsearch that it can index a large number of documents per second?如何扩展弹性搜索，使其每秒可以索引大量文档？
【发布时间】：2015-01-16 01:02:51
【问题描述】：

我现在有一个基本的弹性搜索集群，我正在使用河流来索引数据。我想分两个阶段扩展未来的增长。每秒索引的文档数量可能是瓶颈。

第 1 阶段：每秒将 100 个文档索引到 elasticsearch
第 2 阶段：每秒将 10000 个文档索引到 elasticsearch

我应该怎么做？

提前致谢！

编辑：
我正在尝试索引 Twitter 流。每个文档 = 大约 2 KB。硬件很灵活。现在我有磁盘（具有 50 GB RAM），但获得 SSD（和更好的配置）并不是什么大问题。

【问题讨论】：

我将为此使用批量 API，但如果您不向我们提供有关您的数据大小或硬件的特殊性以及您想要实现的目标的更多信息，我们将无法来帮助你！
@eliasah 谢谢。我已经用详细信息编辑了我的答案...
您使用的是 Logstash、河流还是其他解决方案？
是的，我现在正在使用 elasticsearch twitter 河。但如果它在未来跟不上，我可以编写自己的代码来流式传输和索引推文......
首先，河流已被弃用，它们将在后续版本中被删除。其次，Logstash 比河流更灵活。例如：您可能希望对输入执行额外的预处理。与 Logstash 不同，河流不允许这样做。

标签： python elasticsearch

【解决方案1】：

来自实验和文章的一些亮点：

由于您将编写大量内容，因此请确保从大量主分片开始。您可以根据您将拥有/需要的节点数量做出该决定。基本上，您要确保您的主分片分布在不同的节点上，以便它们可以共享工作。创建索引后，您无法更改主分片的数量，因此请三思而后行。
不要将超过 50% 的机器内存分配给 ES。其余的将由 Lucene 使用（请参阅http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/heap-sizing.html）
使用 SSD。索引时，I/O 起着重要作用（请参阅http://www.elasticsearch.org/blog/performance-considerations-elasticsearch-indexing/）
通常：I/O > 内存 > 多 CPU 内核 > 快速单 CPU（参见 http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/hardware.html）
几乎每个设置都是独一无二的，因此找出最适合您的配置的最佳方法是尝试一下。 Elasticsearch 有一个很棒的监控工具，叫做 Marvel (http://www.elasticsearch.org/overview/marvel/)

玩得开心！

【讨论】：