【发布时间】:2017-11-21 10:39:36
【问题描述】:
您好,我正在使用 Spark 2.2 运行流式作业,并使用 mapWithState 维护几个状态
批处理间隔为 4 分钟。我每 20 分钟检查一次 Kinesis Dstream。
我还对 Kinesis Dstream 进行了重新分区和缓存,因为它用于多个执行路径。
当我查看存储选项卡时,我总是看到 63 个 RDD(21 个用于 MapPartitionsRDD,21 个 MapWithStateRDD 用于 STATE 1,21 个 MapWithStateRDD 用于 STATE 2)。
如何减少存储空间?我应该检查 mapWithState Dstream 吗?
【问题讨论】:
标签: apache-spark spark-streaming