【发布时间】:2018-08-03 14:46:49
【问题描述】:
我有一个包含百万条记录的文件,其中一些记录是不良记录(在 ParDo 中处理记录时会知道这些记录)。我想将坏记录连同它们出现在文件中的行号一起写入单独的 PCollection,并将好的记录写入单独的 PCollection。
有没有办法维护一个全局计数器,记录到目前为止跨工作进程读取的行数,以便我可以用它来写出行号?
【问题讨论】:
-
您可以使用metrics 来跟踪处理的元素数量,但由于工作是并行化的,因此不一定与输入文件中的行匹配。是否可以预处理数据以包含行号?例如,SOURCEROWNUMBER 的 Dataprep。
标签: python google-cloud-dataflow apache-beam