【问题标题】:FlatMap and Map in Apache BeamApache Beam 中的 FlatMap 和地图
【发布时间】:2019-04-25 18:33:51
【问题描述】:

Apache Beam for python 中的 FlatMap 和 Map 函数是否并行运行?

(p
      | 'GetJava' >> beam.io.ReadFromText(input)
      | 'GetImports' >> beam.FlatMap(lambda line: startsWith(line, keyword))
      | 'PackageUse' >> beam.FlatMap(lambda line: packageUse(line, keyword))
      | 'TotalUse' >> beam.CombinePerKey(sum)
      | 'Top_5' >> beam.transforms.combiners.Top.Of(5, by_value)
      | 'write' >> beam.io.WriteToText(output_prefix)
   )

【问题讨论】:

    标签: python apache-beam flatmap


    【解决方案1】:

    管道中的并行化发生在ReadFromText 转换之后。这种转换将目录分成多个文件,将文件分成段。

    每个段在单个工作程序中连续处理,因此您的第一个FlatMap 转换的输出将依次传递到另一个FlatMap - 但是您将有许多FlatMap+FlatMap 实例在每个文件段上运行。

    如果这回答了你的问题,请告诉我:)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2017-12-27
      • 2018-12-07
      • 1970-01-01
      • 1970-01-01
      • 2017-08-31
      • 1970-01-01
      • 2019-08-23
      相关资源
      最近更新 更多