Spark结构化流与Kafka消费者/生产者[关闭]答案

【问题标题】：Spark structured streaming vs Kafka consumer/producer [closed]Spark结构化流与Kafka消费者/生产者[关闭]
【发布时间】：2019-09-24 15:26:42
【问题描述】：

我有一个用例，我的应用程序需要从 Kafka 主题中读取 studentid 和其他相关信息，并将其作为记录插入 Postgres 数据库中的每个 studentid 每天最多有几千个学生

我正在考虑创建一个基于 Java 的 Kafka 消费者应用程序来读取和处理来自 Kafka 主题的消息

对于这个用例，我是否应该考虑使用 Kafka 或基于 Java 的通用 Kafka 消费者进行 Spark 结构化流处理

【问题讨论】：

【解决方案1】：

也许这不是您问题的答案，而是您应该使用现有工具的重新发明轮子：Apache Kafka Connect。

Kafka Connect 是一种用于在 Apache Kafka 和其他系统之间进行可扩展且可靠地流式传输数据的工具。一些连接器已开发并准备好使用。您还可以选择自己开发。

对于您的用例 - 将数据提取到 Postgres - Confluent 已经开发了连接器：JDBC Connector

有关 Kafka Connect 整个概念的更多详细信息，请参见：

【讨论】：

【解决方案2】：

从您的用例来看，这听起来像：

我认为 Spark 不会给您带来任何优势，甚至会带来不必要的开销。

【讨论】：