【发布时间】:2016-09-02 16:26:25
【问题描述】:
考虑到以下事实,您如何有效地设计 Hive/Impala 表?
- 表每接收约1亿行刀具数据 天。它接收数据的日期存储在 表格及其工具 ID。
- 每个工具接收大约 每天 500 次运行,由列运行 ID 标识。每个运行 id 包含大小约为 1 mb 的数据。
- 块的默认大小为 64 mb。
- 可以按日期、工具ID、运行ID依次搜索表格。
【问题讨论】:
-
到目前为止你考虑了什么?
-
Welcome to SO! 请更新你的发现,否则问题会变得太宽泛!
标签: hadoop hive impala hadoop-partitioning