【发布时间】:2014-05-07 23:54:37
【问题描述】:
我有一个关于要使用的存储桶数量的问题。我了解分桶的用途以及它如何对 SMB 连接和采样产生积极影响。但是,如果数据量呈指数级增长怎么办?
假设查看初始数据量,我决定使用 4 个桶并按天分区。当我插入到这个表中时,它会在某个时候需要 4 个减速器(插入查询中的最后一个作业)。这可以。但是,假设某些分区的数据量突然激增很多。它仍然需要 4 个减速器,这不是最佳的,而且它也有可能会因 OOM 而失败。
我最初可以决定使用更多的存储桶,但这会开始创建太多的小文件,直到我达到高容量,因为每个存储桶都会进入一个文件。
一个桶值是否可以有多个文件?
感谢您的意见。
K
【问题讨论】: