【发布时间】:2019-06-20 12:59:31
【问题描述】:
我们计划使用 Apache Flink 对多种类型的对象执行实时聚合。 我们需要支持几种类型的聚合,例如 sum、max、min、average 等 - 目前没有什么特别的
我们的要求是将数据输出到kafka,其中一条消息包含多个对象属性的多个聚合值。
例如,消息应包括属性 A 的总和、最大值和平均值,以及过去 10 分钟内属性 B 的总和和最小值
我的问题是用 Flink 实现这种需求的最佳方式是什么?
我们考虑使用自定义窗口函数,该函数将在窗口末尾的所有对象上运行,并自行计算所有必需的值并输出一个包含所有这些聚合值的新对象。 我们对这个解决方案关心的是对内存消耗的影响,必须将所有窗口数据保存在内存中等待窗口触发(我们将同时打开许多这样的窗口)
非常感谢任何建议/cmets!
谢谢
【问题讨论】:
标签: apache-flink