【发布时间】:2023-03-07 09:01:01
【问题描述】:
工作负载的语义如下:
Flink 算子从同一个 Kafka 主题中读取事件。每个event 需要由一个昂贵的函数f 处理一次,理想情况下,如果不是至少一次。事件之间存在相关性,因此每个事件都应根据累积的state(由初始状态的事件累积)进行处理。
我们如何在 Flink 中为这个用例水平扩展?我想同时处理事件,但所有事件处理都依赖于相同的状态。在我的用例中,状态的大小将首先攀升至 1 TB,然后在 1 TB 左右波动。
【问题讨论】:
标签: apache-flink