【发布时间】:2020-04-19 23:49:55
【问题描述】:
我正在向 BigQuery 上传大量数据(大约 160GB 未压缩)。
GZIP 对我来说不是一个选项,这里需要压缩,所以我只能使用 Avro/Parquet/ORC,并在块级别进行压缩。
我尝试在网上查找,但发现这 3 种格式之间的性能比较很少,而且我发现的那些来自看起来很狡猾的网站。
我的记录包含大约 20 个字段,一个字段是包含 2 个字段的记录(可以展平,不一定是记录)。
我对读取速度不太感兴趣,因为 BigQuery 会这样做,写入方面性能最高的文件格式是什么?
【问题讨论】:
标签: google-bigquery avro parquet orc