【发布时间】:2018-02-15 15:10:45
【问题描述】:
我正在编写一个基本上是字符串 RDD 的 spark 程序。我需要做的基本上是为每个字符串创建一个查询并根据弹性搜索索引进行查询。所以本质上 Query 在字符串上会有所不同。我想使用 elasticsearch-hadoop 进行搜索,以便进行优化。 RDD 可能很大,我正在寻找任何可能的优化方法
例如 RDD 是 List[India, IBM Company, Netflix, Lebron James]。我们将在所有这些术语上创建更多类似的搜索,并在索引 Wikipedia 上进行搜索并返回结果。例如,我们将为 India、IBM、Netflix 和 Lebron James 创建另外四个类似的查询,并为他们取回点击次数
我确实有一些工作可以使用 HTTP Rest Api 调用和批量搜索来取回命中,但我将自己进行优化。我想看看我们是否可以使用 spark 弹性连接器来创建查询并以优化的方式进行搜索
【问题讨论】:
-
你试过elastic.co/guide/en/elasticsearch/hadoop/current/… 吗?我看到它有一个查询选项,不确定你是否可以用它运行更像这样
-
我需要运行的不是一个查询来形成 rdd ,而是一组查询。就像一个多搜索查询。我现在相信您无法通过连接器进行批量查询,并且可能会在我自己的实现中滚动
标签: hadoop apache-spark elasticsearch elasticsearch-hadoop