【发布时间】:2019-06-17 22:12:45
【问题描述】:
我将数据从 spark 写入 gcs 中的 parquet 文件,并在日期列上分区。 gcs 中的数据如下所示:
gs://mybucket/dataset/fileDate=2019-06-17/000.parquet
gs://mybucket/dataset/fileDate=2019-06-17/001.parquet
我想将此加载到 bigquery,以便从路径填充结果(分区)表中的列 fileDate。我该怎么做?
到目前为止,我尝试的是创建表并将数据加载到其中
bq --location=US load --source_format=PARQUET 'workspace:marcin_test.dataset_table' 'gs://mybucket/dataset/fileDate=2019-06-17/*'
这适用于加载数据,但 fileDate 为空。
【问题讨论】:
标签: apache-spark google-bigquery parquet