【问题标题】:How to tackle skewness and output file size in Apache Spark如何解决 Apache Spark 中的偏斜度和输出文件大小
【发布时间】:2019-06-08 17:04:10
【问题描述】:

当我尝试加入 2 个数据集时,我遇到了偏斜问题。数据分区之一(我尝试执行连接操作的列)比分区的其余部分具有偏斜度,因此最终输出部分文件之一是其余输出部分文件的 40 倍。 我正在使用Scala, Apache spark 执行我的计算,使用的文件格式是parquet

所以我正在寻找 2 个解决方案:

  • 首先是如何解决处理时间偏斜的问题 倾斜的数据需要很多时间。 (对于偏斜的数据,我尝试过广播,但没有帮助)
  • 其次是如何使所有最终输出的零件文件都存储起来 在 256 MB 范围内。我试过一个属性 spark.sql.files.maxPartitionBytes=268435456 但它没有做任何 区别。

谢谢,

【问题讨论】:

    标签: scala apache-spark parquet


    【解决方案1】:

    偏度是处理数据时的常见问题。 为了处理它,有一种称为salting的技术存在。

    首先,您可以查看this video by Ted Malaska 以了解有关加盐的直觉。

    其次,检查his repository哦这个主题。

    我认为每个偏度问题都有自己的解决方法。 希望这些材料对你有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-01-20
      • 1970-01-01
      相关资源
      最近更新 更多