【发布时间】:2018-09-03 03:24:58
【问题描述】:
我们使用 spark 结构化流式传输并使用 mapGroupWithState 在一段时间内聚合数据。随着超时发生,我们正在使用
删除状态state.remove () 。
我们正在使用 ganglia 来监控集群的健康状况。 堆内存在此期间不断增加。 我怀疑即使在状态删除之后旧状态对象仍然在内存中并且从未清理过。 调用 state.remove () 时对象会发生什么? 提示表示赞赏。
【问题讨论】:
-
几个月前也有同样的问题,我尝试了很多都没有成功,我认为有内存泄漏或状态存储中的东西,你找到解决方法了吗?
-
我们启用了所有级别的日志记录。我们观察到的是状态移除功能延迟触发,仅在新事件发生时触发。内存清理也是渐进的。
标签: apache-spark garbage-collection spark-streaming