【发布时间】:2016-09-15 11:12:50
【问题描述】:
我们正在使用 Spark Streaming 和 Java 通过 JavaPairRDD (Spark 1.6.0) 中的 saveAsNewAPIHadoopFile 方法将数据写入 ElasticSearch。这一切都在本地和集群上运行良好。但是,我们确实注意到与 ElasticSearch 的连接数量增长得非常快(从运行本地系统的http://localhost:9200/_nodes/stats/http/_all?pretty 可以看出),最终导致 ElasticSearch 变得非常缓慢。似乎为每个 RDD 建立了一个新的连接,并且看起来又被关闭了。是否可以打开连接并尽可能长时间地保持打开状态,或者至少保持相当长的时间?如前所述,我们使用的是 Spark 1.6.0 和 ElasticSearch 2.0.0。
【问题讨论】:
标签: java hadoop elasticsearch apache-spark