【发布时间】:2016-11-07 22:50:36
【问题描述】:
我有一个包含文件夹的目录,每个文件夹都包含压缩的 JSON 文件 (.gz)。目前我正在这样做:
val df = sqlContext.jsonFile("s3://testData/*/*/*")
df.show()
例如:
testData/May/01/00/File.json.gz
每个压缩文件大约 11 到 17 GB。
我有:
- 大师:1 c3.4xlarge
- 核心:19 c3.4xlarge
- Spark 1.5.2
- emr-4.2.0
压缩文件有多个 json 对象/文件。这个过程需要大量的时间来阅读(只是上面的两个语句)。有没有更快的方法来做到这一点?架构也有点复杂。我打算写一些查询来分析数据集。但我担心从 s3 读取数据所需的时间。
最大负载可以是 10TB。我打算稍后使用缓存来处理查询。
【问题讨论】:
标签: json scala apache-spark amazon-s3 pyspark