【发布时间】:2019-10-03 22:37:10
【问题描述】:
我想将我的 elasticsearch 集群的内容复制到我的数据湖以用于加入目的。目前我正在这样做购买每小时扫描整个索引并从中构建一组新的镶木地板。在 scraping 正在进行时,此过程在集群上是缓慢、昂贵且困难的。
我假设 elasticsearch 创建快照比让数十个客户端并行进行扫描调用更容易。所以我想制作索引的快照,在许多工人之间水平分割,并让这些工人生产镶木地板。
问题是我的集群由 aws 的 elasticsearch 服务托管,该服务不提供明文快照。我不知道如何在不将其加载到另一个弹性搜索集群的情况下读取标准快照格式。我希望能够从水平扩展工作池中的轻型 python 或 java 进程读取快照。
是否可以在不将其加载到 elasticsearch 的情况下读取 elasticsearch 快照?
【问题讨论】:
标签: java python amazon-web-services elasticsearch