【发布时间】:2019-08-12 20:45:44
【问题描述】:
我有一个 s3 存储桶,其中包含近 10 万个 gzip 压缩的 JSON 文件。
这些文件被称为[timestamp].json,而不是更合理的[timestamp].json.gz。
我有其他进程使用它们,因此重命名不是一种选择,复制它们甚至更不理想。
我正在使用spark.read.json([pattern]) 来读取这些文件。如果我将文件名重命名为包含.gz,这可以正常工作,但是虽然扩展名只是.json,但它们无法读取。
有什么方法可以告诉 spark 这些文件是 gzip 压缩的吗?
【问题讨论】:
标签: apache-spark pyspark