【问题标题】:How to build Aggregations on Apache Solr with Spark如何使用 Spark 在 Apache Solr 上构建聚合
【发布时间】:2021-12-23 23:41:29
【问题描述】:

我需要对我们接收到 Apache Kafka 的数据进行聚合...

我有点迷失了要遵循的技术路径...

似乎人们看到了标准的方式,Apache Kafka Apache Spark Solr

Bitnami Data Platform

我找不到具体的例子,这实际上是如何运作的,但我也在问自己是否有任何解决方案

Apache Kafka Kafka Connect Solr Solr

不会这样做,因为 solr 也支持聚合...

Solr Aggregation

但我看到了一些代码 sn-ps 聚合 Spark 中的数据并在特殊索引下写入 Solr .....

也可能聚合 mit Kafka Kafka Connect Solr Solr 仅适用于来自 Kafka 的一个主题,所以如果我必须组合来自 2 个或更多不同主题的数据并聚合,那么 Kafka、Spark ,Solr 是要走的路......(或者这个可行)

正如你所读到的,我有点困惑,所以我想在这里问一下,你如何用现实生活中的解决方案来解决这个问题......

谢谢解答...

【问题讨论】:

    标签: apache-spark apache-kafka solr


    【解决方案1】:

    Spark 当然可以加入多个主题。 Flink 或 Kafka Streams/KsqlDB 也可以。 Spark 或 Flink 恰好也能够将他们的数据写入外部源,例如 Solr,而不是专门返回到新的 Kafka 主题中。 “缺点”是,与运行独立的 Kafka Connect 或 Kafka Streams JAR 应用程序集群相比,您需要专门为这些程序维护一个调度程序。如果您使用的是 kubernetes,那么它可以用于上述所有内容(可能不是 Flink ......没有尝试过)

    Kafka Connect 可以使用多个主题,并且根据连接器配置,可能会写入一个或多个 Solr 集合。

    【讨论】:

    • 第一个回答,但你是一个带来更多选择的人,并增加了更多的混乱:)。所以我这样解释,如果我有一个现有的 Spark 集群,那么使用 Kafka Spark Solr 对男性来说是有意义的,否则如果我想要多个输出数据源,Flink 将有意义而不是 Spark,如果我想留在Kafka 的领域并且只为 Kafka 生产,KStream、Kafka Connect 的任何组合都会更有意义....
    • Spark 也可以写入多个目的地,但是,是的,这就是我的看法
    猜你喜欢
    • 2016-11-22
    • 1970-01-01
    • 2023-04-01
    • 2021-11-16
    • 1970-01-01
    • 2015-05-08
    • 2014-01-26
    • 1970-01-01
    • 2022-12-07
    相关资源
    最近更新 更多