【发布时间】:2019-06-08 17:04:10
【问题描述】:
当我尝试加入 2 个数据集时,我遇到了偏斜问题。数据分区之一(我尝试执行连接操作的列)比分区的其余部分具有偏斜度,因此最终输出部分文件之一是其余输出部分文件的 40 倍。
我正在使用Scala, Apache spark 执行我的计算,使用的文件格式是parquet。
所以我正在寻找 2 个解决方案:
- 首先是如何解决处理时间偏斜的问题 倾斜的数据需要很多时间。 (对于偏斜的数据,我尝试过广播,但没有帮助)
- 其次是如何使所有最终输出的零件文件都存储起来 在 256 MB 范围内。我试过一个属性 spark.sql.files.maxPartitionBytes=268435456 但它没有做任何 区别。
谢谢,
【问题讨论】:
标签: scala apache-spark parquet