【发布时间】:2021-12-09 16:37:07
【问题描述】:
我正在尝试了解如何使用 apache Beam 进行简单的丰富数据处理。
我设计了第一个虚拟图,但我不确定如何解决这个问题:
我看到了一些使用 CoGroupByKey 或使用 lambda 的示例,但我不确定,对此我感到有些失落。
我对这种方法是否正确?我在哪里可以找到一些例子来更好地理解?
非常感谢!!
【问题讨论】:
标签: python google-cloud-dataflow apache-beam
我正在尝试了解如何使用 apache Beam 进行简单的丰富数据处理。
我设计了第一个虚拟图,但我不确定如何解决这个问题:
我看到了一些使用 CoGroupByKey 或使用 lambda 的示例,但我不确定,对此我感到有些失落。
我对这种方法是否正确?我在哪里可以找到一些例子来更好地理解?
非常感谢!!
【问题讨论】:
标签: python google-cloud-dataflow apache-beam
这取决于你想要做什么。如果您的未绑定数据和流数据有共同的价值,我会使用CoGroupByKey。但由于流数据,这并不总是有效。如果是这样,您将需要使用side inputs,然后您可以使用lambda 表达式或GroupByKey 来合并数据。你可以看看CoGroupByKey这个例子。这是lambda 的示例,documentation 很好地解释了您可以通过 Python 与 Apache Beam 一起使用的功能。
【讨论】: