【发布时间】:2021-04-22 04:42:46
【问题描述】:
我有一个 Spark 批处理作业,它使用具有 300 个分区的 Kafka 主题中的数据。作为我工作的一部分,有各种转换,例如 group by 和 join,需要改组。
我想知道我是否应该使用 spark.sql.shuffle.partitions 的默认值 200 或将其设置为 300,这与 Kafka 中输入分区的数量以及并行任务的数量相同生成阅读它。
谢谢
【问题讨论】:
标签: apache-spark apache-kafka apache-spark-sql