【问题标题】:Is hive.groupby.skewindata depend on hive.optimize.skewjoin?hive.groupby.skewindata 是否依赖于 hive.optimize.skewjoin?
【发布时间】:2018-07-22 07:24:07
【问题描述】:

根据 hive 模板:

hive.optimize.skewjoin : 是否开启倾斜连接优化。该算法如下: 在运行时,检测具有较大偏差的键。不要处理这些密钥,而是将它们临时存储在 HDFS 目录中。在后续的 map-reduce 作业中,处理那些倾斜的键。不需要为所有表倾斜相同的键,因此,后续的 map-reduce 作业(对于倾斜的键)会快得多,因为它是一个 map-join。

hive.groupby.skewindata : 数据中是否存在倾斜以优化分组查询

但我不明白是否 hive.groupby.skewindata 是否依赖于hive.optimize.skewjoin

【问题讨论】:

    标签: hadoop hive bigdata hiveql


    【解决方案1】:

    这两个属性处理两种不同的情况。当 group by 子句导致倾斜时,您使用 hive.groupby.skewindata。 hive.optimize.skewjoin 当数据倾斜是由连接子句引起时可以使用。根本原因是一样的。 Hive 将具有相同 key 的数据放入同一个 reducer。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-09-22
      • 2015-01-09
      • 2017-02-21
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-05-04
      • 1970-01-01
      相关资源
      最近更新 更多