【发布时间】:2018-12-03 13:21:32
【问题描述】:
在spark中做join的时候,或者一般来说shuffle操作,我可以设置最大partition数,我希望spark在哪个partition中执行这个操作。
根据文档:
spark.sql.shuffle.partitions 200 配置在为连接或聚合打乱数据时要使用的分区数。
如果我想减少每个任务中必须完成的工作量,我将不得不估计数据的总大小并相应地调整此参数(更多分区意味着在单个任务中完成的工作更少,但更多任务)。
我想知道,我可以告诉 spark 简单地根据数据量调整分区数量吗? IE。在连接操作期间设置最大分区大小?
附加问题 - 在重新划分为 200 个大致相等的分区时,Spark 如何知道要处理的数据集的总大小是多少?
提前致谢!
【问题讨论】:
标签: apache-spark