【发布时间】:2017-09-11 07:31:39
【问题描述】:
我们有一些批处理作业可以处理大约 10GB 压缩和大约 30GB 解压缩的 gzip 文件。
尝试在 Java 中处理此问题会花费不合理的时间,我们正在寻找更有效的方法。如果我们使用TextIO或者gcs的原生java sdk来下载文件需要8个多小时来处理,原因是ut由于某种原因可以横向扩展。很可能它不会拆分文件,因为它是 gzip 压缩的。
如果我解压缩文件并处理解压缩文件,这项工作大约需要 10 分钟,因此速度大约是 100 倍。
我完全可以理解,处理一个 gzip 文件可能需要一些额外的时间,但是 100 倍的时间太多了。
【问题讨论】:
标签: java google-cloud-dataflow