【发布时间】:2021-02-18 03:17:58
【问题描述】:
我在 Apache Beam(在 Dataflow 中运行)中遇到了一种情况,我基于 this article 创建了一个简单的有状态 DoFn。上游窗口是全局的,更改它会影响下游聚合。
目前,我没有做任何事情来缩小状态,它似乎只是无限增长。这是真的?无限的状态增长是个问题吗?
我想简单地将 TTL 附加到状态,但看不到此功能。
我正在考虑在数据上存储我自己的时间戳,并使用计时器定期清理表。这是可取的吗?
正在存储的数据是一些事件数据的缓存键。缓存键告诉我,我需要为此事件查找过去的事件数据以补充当前事件。有状态的 DoFn 可以很好地解决这个问题,但是,就像我说的那样,我担心它会无限增长。我不确定在 Dataflow 中是否有任何后果。
【问题讨论】:
标签: google-cloud-dataflow apache-beam