【发布时间】:2021-03-18 10:57:43
【问题描述】:
考虑一个从 Kafka 读取消息的 Spark Structured Streaming 作业。
如果我们定义了多个主题,代码如何管理每个主题的偏移量?
我一直在学习 KafkaMicroBatchStream 课程,但无法了解不同主题的 get 偏移量。
def latestOffset(start: Offset, readLimit: ReadLimit): Offset;方法将只返回一个偏移量。
试图了解实现,因为我需要编写从多个 RDBM 表读取的自定义源,并且每个表都有自己的偏移量。偏移量仅在 RDBMS 表中进行管理。
【问题讨论】:
-
那么,您使用的是哪种偏移存储设置?
-
@OneCricketeer 只是想了解,在多个主题的情况下,偏移量如何由 Spark-Kafka 集成管理。
-
嗯,这将取决于您是否将偏移量存储在检查点中、返回到 Kafka、Zookeeper 或其他地方,但总的来说(或 Kafka 如何独立完成)是每个主题 -为整个消费者组存储分区
标签: scala apache-spark apache-kafka apache-spark-sql spark-structured-streaming