【发布时间】:2018-07-24 03:17:46
【问题描述】:
我有大约 100TB 的数据需要通过对转换字段运行查询来回填,然后将转换写入另一个表。此表按摄取时间时间戳进行分区。正如您在下面看到的,我将这两个操作都作为单个查询的一部分。我计划通过摄取时间戳范围手动以较小的块多次运行此查询。
有没有比手动分块运行查询更好的方法来处理这个过程?例如,可能使用 Dataflow 或其他框架。
CREATE TABLE IF NOT EXISTS dataset.table
PARTITION BY DATE(timestamp) AS
with load as (SELECT *, _TABLE_SUFFIX as tableId
FROM `project.dataset.table_*`
WHERE _TABLE_SUFFIX BETWEEN '1' AND '1531835999999'
),................
...................
【问题讨论】:
标签: google-cloud-platform google-bigquery