【发布时间】:2020-03-25 13:50:45
【问题描述】:
在我们的应用程序中,我们在数据流管道中使用 PubsubIO 从 PubSub 读取数据。下面是代码。
PCollection<String> pubsubMsg = pipeline
.apply(PubsubIO.readStrings().fromSubscription(options.getInputSubscription1()))
PCollection<String> groupByBigqueryResult = pubsubMsg.apply("Read from bigquery table",
ParDo.of(new ReadRawdataFromBiqueryTable()));
但是当我们在这个管道中附加 BigQuery 读取时,由于 BigQuery 读取速度很慢,因为我们在 ParDo 中这样做,似乎在 PubSub 订阅者中实现了一些默认流控制设置,因此我可以看到 PubSub 消息流率为非常慢,但是如果我注释掉在 ReadRawdataFromBiqueryTable 中完成的 BigQuery 读取实现,那么它很快。如何覆盖流控制设置。附加两个数据流作业 1.with bigquery read 2。注释掉 bigquery 读取部分
【问题讨论】:
标签: google-cloud-platform google-bigquery google-cloud-dataflow apache-beam google-cloud-pubsub