【发布时间】:2017-03-27 10:15:07
【问题描述】:
我有一个从 Cloud Pub/Sub 读取流数据的管道,这些数据由 Dataflow 处理,然后保存到一个大型 BigQuery 表中,每个 Pub/Sub 消息都包含一个关联的 account_id。确定新的 account_id 后,有没有办法即时创建新表?然后用来自关联 account_id 的数据填充它们?
我知道这可以通过为每个新帐户更新管道来完成。但在理想情况下,Cloud Dataflow 会以编程方式在代码中生成这些表。
【问题讨论】:
-
我的理解是否正确 - 您直到运行时才知道管道中这些 BigQuery 表/接收器的名称,即它们是动态的。对吗?
-
正确,我想以动态方式在运行时创建表。我确实知道他们的名字,但我们一直在获得新帐户,并且不断更新每个帐户的管道是不省时的。
-
为所有帐户使用一张大表的问题是:遍历每个帐户的行数据的成本和速度。
标签: google-bigquery google-cloud-dataflow google-cloud-pubsub