【发布时间】:2019-05-08 13:46:24
【问题描述】:
需要从 ES 1.7 读取数据以索引到 6.7。 因为没有可用的升级。需要索引 2 亿条记录的近 5 TB 数据。我们使用搜索和滚动方法使用 ES_REST_high_level_client(6.7.2)。但无法使用滚动 ID 滚动。另一种尝试的方法是使用 from 和 batch size。最初读取速度更快,因为从偏移量增加读取真的很糟糕。最好的方法是什么。
第一种使用搜索和滚动的方法。
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.size(10);
searchRequest.source(searchSourceBuilder);
searchRequest.scroll(TimeValue.timeValueMinutes(2));
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
String scrollId = searchResponse.getScrollId();
while (run) {
SearchScrollRequest scrollRequest = new SearchScrollRequest(scrollId);
scrollRequest.scroll(TimeValue.timeValueSeconds(60));
SearchResponse searchScrollResponse = client.scroll(scrollRequest, RequestOptions.DEFAULT);
scrollId = searchScrollResponse.getScrollId();
hits = searchScrollResponse.getHits();
if (hits.getHits().length == 0) {
run = false;
}
}
例外 线程“主”中的异常 ElasticsearchStatusException [Elasticsearch 异常 [type=exception, reason=ElasticsearchIllegalArgumentException[Failed to decode scrollId];嵌套:IOException[Bad Base64 input character decimal 123 in array position 0]; ]] 在 org.elasticsearch.rest.BytesRestResponse.errorFromXContent(BytesRestResponse.java:177) 在 org.elasticsearch.client.RestHighLevelClient.parseEntity(RestHighLevelClient.java:2050) 在 org.elasticsearch.client.RestHighLevelClient.parseResponseException(RestHighLevelClient.java:2026) :
第二种方法:
int offset = 0;
boolean run = true;
while (run) {
SearchRequest searchRequest = new SearchRequest("indexname");
SearchSourceBuilder searchSourceBuilder = new SearchSourceBuilder();
searchSourceBuilder.from(offset);
searchSourceBuilder.size(500);
searchRequest.source(searchSourceBuilder);
long start = System.currentTimeMillis();
SearchResponse searchResponse = client.search(searchRequest, RequestOptions.DEFAULT);
long end = System.currentTimeMillis();
SearchHits hits = searchResponse.getHits();
System.out.println(" Total hits : " + hits.totalHits + " time : " + (end - start));
offset += 500;
if(hits.getHits().length == 0) {
run = false;
}
}
任何其他读取数据的方法。
【问题讨论】:
-
1) 对数据进行逻辑切片(例如按日期)然后 2) 使用带有弹性搜索输入和弹性搜索输出的 logstash?
-
读取仍然很昂贵..索引变得非常大..现在切片索引有点困难..因为我们在 1.7 ES 版本中..
-
我对切片的建议与版本无关,你会做多个并行查询,每个查询都有自己的日期范围。
标签: java elasticsearch elastic-stack elasticsearch-jest