【发布时间】:2020-08-21 05:05:43
【问题描述】:
我有一个分区如下的数据集:
raw_data/year=2020/month=05/day=01/hour=00/minute=00/xxx.parquet
raw_data/year=2020/month=05/day=01/hour=00/minute=01/xxx.parquet
...
...
raw_data/year=2020/month=05/day=01/hour=01/minute=00/xxx.parquet
...
我想加载大量分区(比如 1 个月),每小时聚合它们,然后使用以下分区保存:
processed_data/year=2020/month=05/day=01/hour=00/yyy.parquet
processed_data/year=2020/month=05/day=01/hour=01/yyy.parquet
...
我觉得,如果 Spark 可以读取数据集,使得每个执行程序读取 hour 分区下的所有文件,它将最大限度地减少重新洗牌。有没有办法指定 Spark 的分区读取模式?
【问题讨论】:
标签: apache-spark apache-spark-sql