【发布时间】:2020-05-29 09:31:07
【问题描述】:
我有一个 Apache Beam 作业,它从 PubSub 注入数据,然后加载到 BigQuery, 我将 PubSub 消息转换为带有字段的 pojo
身份证, 姓名,人数
Count 是指非唯一元素在单个摄取中的计数。
如果我从 PubSub 3 个元素加载,其中两个是相同的,那么我需要加载到 BigQuery 2 个元素中,其中一个的计数为 2。
我想知道在 Apache Beam 中实现它是多么容易。 我试图通过 DoFn 或 MapElements 制作它,但我只能处理单个元素。 我也尝试将元素转换为 KV,然后计数,但我有非确定性编码器。
在通常的 java 应用程序中,我可以简单地使用 equals 或通过 Map,但在 Apache Beam 中,一切都不同。
【问题讨论】:
标签: java etl apache-beam