【发布时间】:2019-03-28 05:14:23
【问题描述】:
我有一个数据集,我想按特定键 (clientID) 进行分区,但有些客户端产生的数据远远多于其他客户端。 Hive 中有一个名为“ListBucketing”的功能,由“skewed by”调用,专门用于处理这种情况。
但是,我找不到任何迹象表明 Spark 支持此功能,或者如何(如果支持)使用它。
是否有与之等效的 Spark 功能?或者,Spark 是否有一些其他功能可以复制这种行为?
(作为奖励 - 以及我的实际用例的要求 - 您的建议方法是否适用于 Amazon Athena?)
【问题讨论】:
标签: apache-spark hive