【问题标题】:Join streaming data with a dynamic BigQuery table in Dataflow SQL将流数据与 Dataflow SQL 中的动态 BigQuery 表连接起来
【发布时间】:2021-05-11 13:53:53
【问题描述】:

我有一个 Dataflow SQL 作业,它将流式 PubSub 与 BigQuery 表连接起来,并将结果写入 BigQuery 表。当我向表“us_state_salesregions”添加新记录(新的销售区域)时,新的销售区域在结果表中不可见。

只有在创建新的数据流作业后,新添加的 sales_region 才会在查询的结果表中可见。

SELECT tr.*, sr.sales_region
FROM pubsub.topic.`project-id`.transactions as tr
  INNER JOIN bigquery.table.`project-id`.dataflow_sql_dataset.us_state_salesregions AS sr
  ON tr.state = sr.state_code

我应该怎么做才能在查询结果中获取新添加的sales_region(不启动新的Dataflow Job)?

【问题讨论】:

    标签: google-bigquery google-cloud-dataflow


    【解决方案1】:

    有界源读取(例如 BigQuery)被认为是静态的,不会在流式传输管道过程中重新读取。

    如果您的边桌足够小,您可以设置 looping timers 定期重新读取您的 bigtable 并在此基础上加入。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多