如何解决 Apache Spark 中的偏斜度和输出文件大小答案

【问题标题】：How to tackle skewness and output file size in Apache Spark如何解决 Apache Spark 中的偏斜度和输出文件大小
【发布时间】：2019-06-08 17:04:10
【问题描述】：

当我尝试加入 2 个数据集时，我遇到了偏斜问题。数据分区之一（我尝试执行连接操作的列）比分区的其余部分具有偏斜度，因此最终输出部分文件之一是其余输出部分文件的 40 倍。我正在使用Scala, Apache spark 执行我的计算，使用的文件格式是parquet。

所以我正在寻找 2 个解决方案：

首先是如何解决处理时间偏斜的问题倾斜的数据需要很多时间。（对于偏斜的数据，我尝试过广播，但没有帮助）
其次是如何使所有最终输出的零件文件都存储起来在 256 MB 范围内。我试过一个属性 spark.sql.files.maxPartitionBytes=268435456 但它没有做任何区别。

谢谢，

【问题讨论】：

【解决方案1】：

偏度是处理数据时的常见问题。为了处理它，有一种称为salting的技术存在。

首先，您可以查看this video by Ted Malaska 以了解有关加盐的直觉。

其次，检查his repository哦这个主题。

我认为每个偏度问题都有自己的解决方法。希望这些材料对你有所帮助。

【讨论】：