【问题标题】:Joining streaming data with bounded data using apache beam使用 Apache Beam 将流数据与有界数据连接起来
【发布时间】:2021-12-09 16:37:07
【问题描述】:

我正在尝试了解如何使用 apache Beam 进行简单的丰富数据处理。

我设计了第一个虚拟图,但我不确定如何解决这个问题:

我看到了一些使用 CoGroupByKey 或使用 lambda 的示例,但我不确定,对此我感到有些失落。

我对这种方法是否正确?我在哪里可以找到一些例子来更好地理解?

非常感谢!!

【问题讨论】:

    标签: python google-cloud-dataflow apache-beam


    【解决方案1】:

    这取决于你想要做什么。如果您的未绑定数据和流数据有共同的价值,我会使用CoGroupByKey。但由于流数据,这并不总是有效。如果是这样,您将需要使用side inputs,然后您可以使用lambda 表达式或GroupByKey 来合并数据。你可以看看CoGroupByKey这个例子。这是lambda 的示例,documentation 很好地解释了您可以通过 Python 与 Apache Beam 一起使用的功能。

    【讨论】:

    • 感谢您的回复....我正在尝试使用存储在 Google 数据存储中的一些属性来丰富数据流,最后,插入 Bigquery de Data 丰富并更新数据存储...我的实体和数据流有一个共同的 ID...我认为,更好的选择是使用侧面输入
    • @RecoJhonatan 如果此答案对您有所帮助,您可以投票或接受答案。这可以帮助遇到同样问题的未来用户。
    猜你喜欢
    • 1970-01-01
    • 2020-12-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2018-07-20
    • 2019-06-04
    • 2018-12-27
    • 1970-01-01
    相关资源
    最近更新 更多