【发布时间】:2018-03-30 17:57:06
【问题描述】:
我有一个有限的 PCollection,但我只想获得前 X 数量的输入并丢弃其余的。有没有办法使用 Dataflow 2.X/ApacheBeam 做到这一点?
【问题讨论】:
-
没有办法在 Apache Beam 中本地执行此操作。您可能能够以特定方式操作或查询输入源,以仅选择前 X 个元素。您从哪个输入源读取数据?
-
最初的输入是来自 BigQuery 表的查询结果。然后它经过几个处理步骤和进一步过滤,然后到达我只需要前一百万的步骤。但是,我无法对查询进行限制。
-
也许您可以使用Top 转换?
标签: java google-cloud-dataflow apache-beam