【发布时间】:2019-04-04 16:15:21
【问题描述】:
我有一个 100 GB 的表,我正在尝试将其加载到 google bigquery 中。它在 GCS 上存储为一个 100GB 的 avro 文件。
目前我的bq load 作业失败,并显示无用的错误消息:
UDF worker timed out during execution.; Unexpected abort triggered for
worker avro-worker-156907: request_timeout
我正在考虑尝试不同的格式。我了解 bigquery 支持多种格式(AVRO、JSON、CSV、Parquet 等),原则上可以加载任何这些格式的大型数据集。
但是,我想知道这里是否有人在加载到 bigquery 时可能对这些格式中的哪一种在实践中最可靠/最不容易出现怪癖有经验?
【问题讨论】:
-
请澄清——“100 GB 表”是指您有一个 100 GB Avro 文件吗?加载较小的文件可能会更好,例如每 1 GB 大小,尽管 BIgQuery 确实并行读取大型 Avro 文件。
-
是的,我有一个 100 GB 的 avro 文件。在原始问题中得到澄清。
-
是否可以选择将这个巨大的文件分解成大量的小文件?
-
@hkanjih 是的,我现在正在尝试这个。我很惊讶文档没有提到这种方法。
标签: google-bigquery