【发布时间】:2018-07-07 06:25:32
【问题描述】:
当您需要在数据流作业中从 bigquery 中的一个或多个表中读取所有数据时,我会说有两种方法。第一种是使用BigQueryIO 和from,它读取有问题的表,第二种方法是使用fromQuery,在其中指定一个从同一个表中读取所有数据的查询。所以我的问题是:
- 使用其中一种是否有任何成本或性能优势?
我在文档中没有找到任何关于此的内容,但我真的很想知道。我想read 可能更快,因为您不需要运行扫描数据的查询,这意味着它更类似于您在BigQuery UI 中的预览功能。如果这是真的,它可能也会便宜得多,但如果它们的成本相同,那就有意义了。
所以简而言之,有什么区别:
BigQueryIO.read(...).from(tableName)
还有
BigQueryIO.read(...).fromQuery("SELECT * FROM " + tableName)
【问题讨论】:
标签: google-bigquery google-cloud-dataflow dataflow