【问题标题】:Determining the number of buckets in Hive Table确定 Hive 表中的桶数
【发布时间】:2014-05-07 23:54:37
【问题描述】:

我有一个关于要使用的存储桶数量的问题。我了解分桶的用途以及它如何对 SMB 连接和采样产生积极影响。但是,如果数据量呈指数级增长怎么办?

假设查看初始数据量,我决定使用 4 个桶并按天分区。当我插入到这个表中时,它会在某个时候需要 4 个减速器(插入查询中的最后一个作业)。这可以。但是,假设某些分区的数据量突然激增很多。它仍然需要 4 个减速器,这不是最佳的,而且它也有可能会因 OOM 而失败。

我最初可以决定使用更多的存储桶,但这会开始创建太多的小文件,直到我达到高容量,因为每个存储桶都会进入一个文件。

一个桶值是否可以有多个文件?

感谢您的意见。

K

【问题讨论】:

    标签: hadoop hive


    【解决方案1】:

    关注“某些分区的数据量突然激增很多”,您可以考虑使用list bucketing,它允许您将低容量的分桶列值放入一个目录中。

    【讨论】:

      猜你喜欢
      • 2019-12-09
      • 1970-01-01
      • 2019-03-16
      • 1970-01-01
      • 2019-04-05
      • 2017-02-14
      • 1970-01-01
      • 2017-08-31
      • 1970-01-01
      相关资源
      最近更新 更多