使用 Apache Beam 将流数据与有界数据连接起来答案

【问题标题】：Joining streaming data with bounded data using apache beam使用 Apache Beam 将流数据与有界数据连接起来
【发布时间】：2021-12-09 16:37:07
【问题描述】：

我正在尝试了解如何使用 apache Beam 进行简单的丰富数据处理。

我设计了第一个虚拟图，但我不确定如何解决这个问题：

我看到了一些使用 CoGroupByKey 或使用 lambda 的示例，但我不确定，对此我感到有些失落。

我对这种方法是否正确？我在哪里可以找到一些例子来更好地理解？

非常感谢！！

【问题讨论】：

标签： python google-cloud-dataflow apache-beam

【解决方案1】：

这取决于你想要做什么。如果您的未绑定数据和流数据有共同的价值，我会使用CoGroupByKey。但由于流数据，这并不总是有效。如果是这样，您将需要使用side inputs，然后您可以使用lambda 表达式或GroupByKey 来合并数据。你可以看看CoGroupByKey这个例子。这是lambda 的示例，documentation 很好地解释了您可以通过 Python 与 Apache Beam 一起使用的功能。

【讨论】：

感谢您的回复....我正在尝试使用存储在 Google 数据存储中的一些属性来丰富数据流，最后，插入 Bigquery de Data 丰富并更新数据存储...我的实体和数据流有一个共同的 ID...我认为，更好的选择是使用侧面输入
@RecoJhonatan 如果此答案对您有所帮助，您可以投票或接受答案。这可以帮助遇到同样问题的未来用户。