【发布时间】:2021-08-14 19:42:22
【问题描述】:
我想使用 Rocksdb 状态后端在 Flink 中保持大约 2TB 的状态。我将使用增量检查点,因此它将大大减少检查点时间。
但有时我必须更改代码,例如重新缩放、修复错误、添加新的过滤器/映射、添加新的源/接收器等。
所有这些都会影响作业拓扑。当状态发生任何变化时,我可以再次引导状态。但其他时候,引导状态可能很困难,因为这对我来说意味着浪费时间。
在这些情况下,我必须创建一个保存点来重新开始我的工作。我还会在作业运行时定期获取保存点,以便在作业失败时(例如每 15 分钟)从最新的保存点重新启动作业。但是由于状态大,获取保存点的时间会太长。 MTTR(平均恢复时间)对我来说非常重要。如何提高保存点性能?
【问题讨论】:
标签: apache-flink flink-streaming