【发布时间】:2021-07-13 17:17:57
【问题描述】:
我使用的是 Spark 3.0.2,我有一个流式作业,它使用来自 Kafka 的数据,触发持续时间为“1 分钟”。
我在 Spark UI 中看到定义的每 1 分钟有一个新作业,但我看到方法 onQueryProgress 每 5~6 分钟被调用一次。我认为应该在每个微批处理之后直接调用此方法。
有没有办法控制这个持续时间并使其等于触发持续时间?
【问题讨论】:
-
结构化流式查询是否每微批量处理数据?或者可能是您在某些微批处理中没有任何数据,因此不会触发 inQueryProgress。
-
我可以在 Spark UI 中看到它每分钟处理一次,因为有输入数据。
标签: apache-spark spark-structured-streaming spark-kafka-integration