KafkaStreams EXACTLY_ONCE 保证 - 跳过 kafka 偏移量答案

【问题标题】：KafkaStreams EXACTLY_ONCE guarantee - skipping kafka offsetsKafkaStreams EXACTLY_ONCE 保证 - 跳过 kafka 偏移量
【发布时间】：2018-06-28 20:51:28
【问题描述】：

我正在使用 Spark 2.2.0 和 kafka 0.10 spark-streaming 库来读取充满 Kafka-Streams scala 应用程序的主题。 Kafka Broker 版本是 0.11，Kafka-streams 版本是 0.11.0.2。

当我在 Kafka-Stream 应用程序中设置 EXACTLY_ONCE 保证时：

 p.put(StreamsConfig.PROCESSING_GUARANTEE_CONFIG, StreamsConfig.EXACTLY_ONCE)

我在 Spark 中收到此错误：

java.lang.AssertionError: assertion failed: Got wrong record for spark-executor-<group.id> <topic> 0 even after seeking to offset 24
at scala.Predef$.assert(Predef.scala:170)
at org.apache.spark.streaming.kafka010.CachedKafkaConsumer.get(CachedKafkaConsumer.scala:85)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:223)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.next(KafkaRDD.scala:189)
at scala.collection.Iterator$class.foreach(Iterator.scala:893)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.foreach(KafkaRDD.scala:189)
at scala.collection.generic.Growable$class.$plus$plus$eq(Growable.scala:59)
at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:104)
at scala.collection.mutable.ArrayBuffer.$plus$plus$eq(ArrayBuffer.scala:48)
at scala.collection.TraversableOnce$class.to(TraversableOnce.scala:310)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.to(KafkaRDD.scala:189)
at scala.collection.TraversableOnce$class.toBuffer(TraversableOnce.scala:302)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.toBuffer(KafkaRDD.scala:189)
at scala.collection.TraversableOnce$class.toArray(TraversableOnce.scala:289)
at org.apache.spark.streaming.kafka010.KafkaRDD$KafkaRDDIterator.toArray(KafkaRDD.scala:189)
at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
at org.apache.spark.rdd.RDD$$anonfun$collect$1$$anonfun$13.apply(RDD.scala:936)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:2062)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:87)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:335)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

如果没有设置 EXACTLY_ONCE 属性，它就可以正常工作。

编辑 1：充满 kafka-streams 应用程序的主题（仅启用一次）具有错误的结束偏移量。当我运行 kafka.tools.GetOffsetShell 时，它给出了结束偏移量 18，但在主题中只有 12 条消息（保留被禁用）。当恰好一次保证被禁用时，这些偏移量是匹配的。我尝试根据this重置kafka-streams，但问题仍然存在。

编辑 2：当我使用 --print-offsets 选项运行 SimpleConsumerShell 时，输出如下：

next offset = 1
{"timestamp": 149583551238149, "data": {...}}
next offset = 2
{"timestamp": 149583551238149, "data": {...}}
next offset = 4
{"timestamp": 149583551238149, "data": {...}}
next offset = 5
{"timestamp": 149583551238149, "data": {...}}
next offset = 7
{"timestamp": 149583551238149, "data": {...}}
next offset = 8
{"timestamp": 149583551238149, "data": {...}}
...

启用一次性交付保证后，显然会跳过一些偏移量。

有什么想法吗？什么会导致这种情况？谢谢！

【问题讨论】：

标签： apache-kafka spark-streaming offset apache-kafka-streams

【解决方案1】：

我发现偏移间隙是 Kafka（版本 >= 0.11）中的预期行为，这是由提交/中止事务标记引起的。

更多关于 kafka 事务和控制消息的信息here:

这些事务标记不暴露给应用程序，而是消费者在 read_committed 模式下用于过滤来自中止事务并且不返回作为 open 一部分的消息事务（即那些在日志中但没有与它们关联的事务标记）。

和here。

Kafka 事务是在 Kafka 0.11 中引入的，所以我假设 spark-streaming-kafka 库 0.10 不兼容这种消息格式，并且尚未实现新版本的 spark-streaming-kafka。

【讨论】：