如何使用 Spark 在 Apache Solr 上构建聚合答案

【问题标题】：How to build Aggregations on Apache Solr with Spark如何使用 Spark 在 Apache Solr 上构建聚合
【发布时间】：2021-12-23 23:41:29
【问题描述】：

我需要对我们接收到 Apache Kafka 的数据进行聚合...

我有点迷失了要遵循的技术路径...

似乎人们看到了标准的方式，Apache Kafka Apache Spark Solr

Bitnami Data Platform

我找不到具体的例子，这实际上是如何运作的，但我也在问自己是否有任何解决方案

Apache Kafka Kafka Connect Solr Solr

不会这样做，因为 solr 也支持聚合...

Solr Aggregation

但我看到了一些代码 sn-ps 聚合 Spark 中的数据并在特殊索引下写入 Solr .....

也可能聚合 mit Kafka Kafka Connect Solr Solr 仅适用于来自 Kafka 的一个主题，所以如果我必须组合来自 2 个或更多不同主题的数据并聚合，那么 Kafka、Spark ，Solr 是要走的路......（或者这个可行）

正如你所读到的，我有点困惑，所以我想在这里问一下，你如何用现实生活中的解决方案来解决这个问题......

谢谢解答...

【问题讨论】：

标签： apache-spark apache-kafka solr

【解决方案1】：

Spark 当然可以加入多个主题。 Flink 或 Kafka Streams/KsqlDB 也可以。 Spark 或 Flink 恰好也能够将他们的数据写入外部源，例如 Solr，而不是专门返回到新的 Kafka 主题中。 “缺点”是，与运行独立的 Kafka Connect 或 Kafka Streams JAR 应用程序集群相比，您需要专门为这些程序维护一个调度程序。如果您使用的是 kubernetes，那么它可以用于上述所有内容（可能不是 Flink ......没有尝试过）

Kafka Connect 可以使用多个主题，并且根据连接器配置，可能会写入一个或多个 Solr 集合。

【讨论】：

第一个回答，但你是一个带来更多选择的人，并增加了更多的混乱:)。所以我这样解释，如果我有一个现有的 Spark 集群，那么使用 Kafka Spark Solr 对男性来说是有意义的，否则如果我想要多个输出数据源，Flink 将有意义而不是 Spark，如果我想留在Kafka 的领域并且只为 Kafka 生产，KStream、Kafka Connect 的任何组合都会更有意义....
Spark 也可以写入多个目的地，但是，是的，这就是我的看法