hive.groupby.skewindata 是否依赖于 hive.optimize.skewjoin？答案

【问题标题】：Is hive.groupby.skewindata depend on hive.optimize.skewjoin?hive.groupby.skewindata 是否依赖于 hive.optimize.skewjoin？
【发布时间】：2018-07-22 07:24:07
【问题描述】：

根据 hive 模板：

hive.optimize.skewjoin : 是否开启倾斜连接优化。该算法如下：在运行时，检测具有较大偏差的键。不要处理这些密钥，而是将它们临时存储在 HDFS 目录中。在后续的 map-reduce 作业中，处理那些倾斜的键。不需要为所有表倾斜相同的键，因此，后续的 map-reduce 作业（对于倾斜的键）会快得多，因为它是一个 map-join。

hive.groupby.skewindata : 数据中是否存在倾斜以优化分组查询

但我不明白是否 hive.groupby.skewindata 是否依赖于hive.optimize.skewjoin？

【问题讨论】：

标签： hadoop hive bigdata hiveql

【解决方案1】：

这两个属性处理两种不同的情况。当 group by 子句导致倾斜时，您使用 hive.groupby.skewindata。 hive.optimize.skewjoin 当数据倾斜是由连接子句引起时可以使用。根本原因是一样的。 Hive 将具有相同 key 的数据放入同一个 reducer。

【讨论】：