【发布时间】:2020-01-28 07:45:18
【问题描述】:
我创建了从 Apache Flume 获取输入数据的 spark 应用程序。我将 spark 批处理间隔设置为 4 分钟,这样 spark 将每 4 分钟处理一次数据。但是我有一些昂贵的 spark 批处理需要相当长的时间(比如 30 分钟),因此在此期间大约 7 个 spark 批处理将在队列中挂起,一旦完成昂贵的批处理执行,它将开始一个接一个地处理。通过这种方式,我的火花在最大时间内保持忙碌。那么我怎样才能避免这种排队呢?如果我的 spark 批处理正在执行并且需要超过 4 分钟,我不想在队列中添加下一个 spark 批处理。
我正在启动如下火花
val ssc = new StreamingContext(sc, 240000)// 240000 equals to 4 minutes
【问题讨论】:
标签: apache-spark spark-streaming