【发布时间】:2018-06-15 09:21:25
【问题描述】:
我试图了解coalesce 如何确定如何将初始分区加入最终问题,显然“首选位置”与它有关。
根据this question,Scala Spark 有一个函数preferredLocations(split: Partition) 可以识别这个。但我对 Spark 的 Scala 方面一点也不熟悉。有没有办法在 PySpark 级别确定给定行或分区 ID 的首选位置?
【问题讨论】:
标签: apache-spark pyspark partitioning