【发布时间】:2019-07-14 15:23:47
【问题描述】:
我正在使用光束/数据流运行流式传输管道。我正在阅读来自 pub/sub 的输入,并将其转换为如下所示的字典:
raw_loads_dict = (p
| 'ReadPubsubLoads' >> ReadFromPubSub(topic=PUBSUB_TOPIC_NAME).with_output_types(bytes)
| 'JSONParse' >> beam.Map(lambda x: json.loads(x))
)
由于这是在高吞吐量管道的每个元素上完成的,我担心这不是最有效的方法吗?
在这种情况下,最佳做法是什么,考虑到我在某些情况下会处理数据,但可能会直接将其流式传输到 bigquery。
【问题讨论】:
标签: python google-cloud-dataflow apache-beam google-cloud-pubsub