【发布时间】:2018-06-02 19:54:14
【问题描述】:
我正在尝试使用 DataFlow (Java) 将数据从 Cloud Storage 插入到 Big Query。我可以批量上传数据;但是,我想改为设置流式上传。因此,当新对象添加到我的存储桶时,它们将被推送到 BigQuery。
我已将 PipelineOptions 设置为 Streaming,它在 GCP Console UI 中显示数据流管道属于流式传输类型。我在存储桶中的初始文件/对象集被推送到 BigQuery。
但是当我向存储桶添加新对象时,这些对象不会被推送到 BigQuery。这是为什么?如何使用流式数据流管道将添加到我的 Cloud Storage 的对象推送到 BigQuery?
//Specify PipelineOptions
DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class);
options.setProject(<project-name>);
options.setStagingLocation(<bucket/staging folder>);
options.setStreaming(true);
options.setRunner(DataflowRunner.class);
我的解释是,因为这是一个流式管道,所以当我将对象添加到 Cloud Storage 时,它们会被推送到 BigQuery。
请提出建议。
【问题讨论】:
标签: google-cloud-platform google-bigquery google-cloud-storage google-cloud-dataflow