【问题标题】:Spark structured streaming vs Kafka consumer/producer [closed]Spark结构化流与Kafka消费者/生产者[关闭]
【发布时间】:2019-09-24 15:26:42
【问题描述】:

我有一个用例,我的应用程序需要从 Kafka 主题中读取 studentid 和其他相关信息,并将其作为记录插入 Postgres 数据库中的每个 studentid 每天最多有几千个学生

我正在考虑创建一个基于 Java 的 Kafka 消费者应用程序来读取和处理来自 Kafka 主题的消息

对于这个用例,我是否应该考虑使用 Kafka 或基于 Java 的通用 Kafka 消费者进行 Spark 结构化流处理

【问题讨论】:

    标签: java apache-spark apache-kafka


    【解决方案1】:

    也许这不是您问题的答案,而是您应该使用现有工具的重新发明轮子:Apache Kafka Connect

    Kafka Connect 是一种用于在 Apache Kafka 和其他系统之间进行可扩展且可靠地流式传输数据的工具。一些连接器已开发并准备好使用。您还可以选择自己开发。

    对于您的用例 - 将数据提取到 Postgres - Confluent 已经开发了连接器:JDBC Connector

    有关 Kafka Connect 整个概念的更多详细信息,请参见:

    【讨论】:

      【解决方案2】:

      从您的用例来看,这听起来像:

      • 您的数据规模很小(只有几千个用户)
      • 你的数据量是一致的
      • 您并没有以任何方式转换/操纵/聚合这些数据,但很漂亮 只是将其作为来自 Kafka 的输入读取并作为输出写入 Postgres 表。

      我认为 Spark 不会给您带来任何优势,甚至会带来不必要的开销。

      【讨论】:

        猜你喜欢
        • 2018-12-18
        • 1970-01-01
        • 1970-01-01
        • 2018-01-17
        • 2019-07-22
        • 1970-01-01
        • 2017-03-18
        • 1970-01-01
        • 2017-11-03
        相关资源
        最近更新 更多