如何拆分 CSV 或 JSON 文件以获得最佳雪花摄取？答案

【问题标题】：How to split a CSV or JSON file for optimal Snowflake ingestion?如何拆分 CSV 或 JSON 文件以获得最佳雪花摄取？
【发布时间】：2021-08-09 20:23:53
【问题描述】：

Snowflake 建议在摄取前拆分大文件：

为了优化负载的并行操作数量，我们建议以生成压缩后大小约为 100-250 MB（或更大）的数据文件为目标。 https://docs.snowflake.com/en/user-guide/data-load-considerations-prepare.html

拆分和压缩大文件的最佳方法是什么？

【问题讨论】：

【解决方案1】：

这是我能想到的最好的命令行序列：

cat bigfile.json  | split -C 1000000000 -d -a4 - output_prefix --filter='gzip > $FILE.gz'

将第一步替换为将 JSON 或 CSV 输出到标准输出的任何内容，具体取决于源文件。如果是普通文件cat 可以，如果是.gz 然后gzcat，如果是.zstd 然后unzstd --long=31 -c file.zst，等等。

然后split:

Snowflake 可以摄取 .gz 文件，因此最后的压缩步骤将帮助我们在网络中移动文件。

【讨论】：