Kafka 中的 Spark 偏移管理答案

【问题标题】：Spark Offset Management in KafkaKafka 中的 Spark 偏移管理
【发布时间】：2021-01-15 20:39:32
【问题描述】：

我正在使用 Spark 结构化流式处理（版本 2.3.2）。我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。

问题：

我们可以使用 Kafka 进行检查点来管理偏移量还是只需要使用 HDFS/S3？

请帮忙。

【问题讨论】：

这能回答你的问题吗？ How to manually set group.id and commit kafka offsets in spark structured streaming?
我想在sink kafka上完成写入后提交源Kafka中的偏移量，直到那时我不想提交偏移量。
你需要使用框架，而不是反对它。正如@mike 所说。

标签： apache-spark spark-structured-streaming spark-kafka-integration

【解决方案1】：

我们可以使用 Kafka 进行检查点来管理偏移量

不，您不能将偏移量提交回您的源 Kafka 主题。这在here和官方Spark Structured Streaming + Kafka Integration Guide有详细描述。

还是我们只需要使用 HDFS/S3？

是的，这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming 编程指南的 Recovering from Failures with Checkpointing 部分中进行了解释：“此检查点位置必须是 HDFS 兼容文件系统中的路径，并且可以在启动时设置为 DataStreamWriter 中的选项查询。”

【讨论】：