【发布时间】:2015-01-16 01:02:51
【问题描述】:
我现在有一个基本的弹性搜索集群,我正在使用河流来索引数据。我想分两个阶段扩展未来的增长。每秒索引的文档数量可能是瓶颈。
- 第 1 阶段:每秒将 100 个文档索引到 elasticsearch
- 第 2 阶段:每秒将 10000 个文档索引到 elasticsearch
我应该怎么做?
提前致谢!
编辑:
我正在尝试索引 Twitter 流。
每个文档 = 大约 2 KB。
硬件很灵活。现在我有磁盘(具有 50 GB RAM),但获得 SSD(和更好的配置)并不是什么大问题。
【问题讨论】:
-
我将为此使用批量 API,但如果您不向我们提供有关您的数据大小或硬件的特殊性以及您想要实现的目标的更多信息,我们将无法来帮助你!
-
@eliasah 谢谢。我已经用详细信息编辑了我的答案...
-
您使用的是 Logstash、河流还是其他解决方案?
-
是的,我现在正在使用 elasticsearch twitter 河。但如果它在未来跟不上,我可以编写自己的代码来流式传输和索引推文......
-
首先,河流已被弃用,它们将在后续版本中被删除。其次,Logstash 比河流更灵活。例如:您可能希望对输入执行额外的预处理。与 Logstash 不同,河流不允许这样做。
标签: python elasticsearch