【发布时间】:2021-01-15 20:39:32
【问题描述】:
我正在使用 Spark 结构化流式处理(版本 2.3.2)。我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。 这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。
问题:
- 我们可以使用 Kafka 进行检查点来管理偏移量还是只需要使用 HDFS/S3?
请帮忙。
【问题讨论】:
-
我想在sink kafka上完成写入后提交源Kafka中的偏移量,直到那时我不想提交偏移量。
-
你需要使用框架,而不是反对它。正如@mike 所说。
标签: apache-spark spark-structured-streaming spark-kafka-integration