【发布时间】:2021-03-30 20:29:09
【问题描述】:
我在 S3 中有一个文件夹,其中包含 Parquet 数据:
bucket_name/folder_name/YEAR/MONTH/DAY
eg:
s3://bucket_name/folder_name/2020/12/10
我在AWS EMR 上使用Apache spark 来读取镶木地板文件。
由于数据没有分区,有没有办法实现谓词下推过滤而不对数据进行分区?
可以使用哪些性能改进最佳实践。
【问题讨论】:
-
好吧,我写了一个答案来识别你的分区。但是,如果您需要读取分隔分区,在这种情况下,唯一的方法是这样读取:s3://bucket_name/folder_name/2020/*/* 或 s3://bucket_name /folder_name/2020/12/*等...
标签: apache-spark amazon-s3 pyspark amazon-emr