【发布时间】:2021-01-27 17:44:30
【问题描述】:
我有一个 Google 数据流管道,使用 Apace Beam 构建。应用每天接收大约50M条记录,现在为了忽略重复记录,我们打算使用beam框架提供的Deduplication函数。
该文档没有说明重复数据删除功能可以工作的最大输入计数,也没有说明它可以保留数据的最大持续时间。
将 50M 记录简单地扔到重复数据删除功能上,其中大约一半会重复,并保存保持 7 天的持续时间,这样的设计会不会很好?
【问题讨论】:
标签: java google-cloud-platform google-cloud-dataflow apache-beam apache-beam-io