【问题标题】:Spark Offset Management in KafkaKafka 中的 Spark 偏移管理
【发布时间】:2021-01-15 20:39:32
【问题描述】:

我正在使用 Spark 结构化流式处理(版本 2.3.2)。我需要从 Kafka Cluster 读取并写入 Kerberized Kafka。 这里我想在记录写入 Kerberized Kafka 后使用 Kafka 作为偏移检查点。

问题:

  1. 我们可以使用 Kafka 进行检查点来管理偏移量还是只需要使用 HDFS/S3?

请帮忙。

【问题讨论】:

标签: apache-spark spark-structured-streaming spark-kafka-integration


【解决方案1】:

我们可以使用 Kafka 进行检查点来管理偏移量

不,您不能将偏移量提交回您的源 Kafka 主题。这在here和官方Spark Structured Streaming + Kafka Integration Guide有详细描述。

还是我们只需要使用 HDFS/S3?

是的,这必须是 HDFS 或 S3 之类的东西。这在 StructuredStreaming 编程指南的 Recovering from Failures with Checkpointing 部分中进行了解释:“此检查点位置必须是 HDFS 兼容文件系统中的路径,并且可以在启动时设置为 DataStreamWriter 中的选项查询。”

【讨论】:

    猜你喜欢
    • 2018-09-22
    • 2017-07-17
    • 2018-04-12
    • 2018-08-30
    • 2017-02-06
    • 2019-10-03
    • 2021-05-22
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多