【发布时间】:2016-12-21 23:37:43
【问题描述】:
我有两张表要合并在一起。其中一个有非常糟糕的数据偏差。这导致我的 spark 作业无法并行运行,因为大部分工作都在一个分区上完成。
我听说过并阅读过,并尝试过对我的密钥进行加盐以增加分布。 https://www.youtube.com/watch?v=WyfHUNnMutg 12:45 秒正是我想做的事。
任何帮助或提示将不胜感激。谢谢!
【问题讨论】:
标签: scala hadoop apache-spark spark-dataframe