【发布时间】:2014-07-31 22:10:09
【问题描述】:
我有一个非规范化的表说 Sales 看起来像:
销售密钥, SalesOfParts、SalesOfEquipments、CostOfSales 作为一些数字度量 行业、国家、州、销售区域、设备 ID、客户 ID、销售年份、销售月份和一些更相似的维度。 (共12个维度)
我需要支持对销售额的聚合查询,例如一年、一个月的总销售额……总成本等。 这些聚合也需要过滤,例如 2013 年 04 年的总销售额,属于 XYZ 客户的制造业。
我在 hive/impala 中有这些维度表和事实。
我不认为我可以在所有维度上制作一个立方体。我读了一篇论文来了解如何在多个维度上进行 OLAP: http://www.vldb.org/conf/2004/RS14P1.PDF
这基本上建议在小片段上实现多维数据集,并在查询跨越多个多维数据集时进行某种运行时计算。
我不确定如何在 Hive/Impala 中实现此模型。任何指针/建议都会很棒。
编辑:我在 Sales 表中有大约 1000 万行,并且维度无法与 100 相比,但大约为 12(可能高达 15),但每个都有很好的基数。
【问题讨论】:
-
也许值得一提的是数据的大小和查询所需的响应时间。参考论文是关于一个超过 100 个维度和相当少量 10e6 元组的场景。它适用于您的用例吗?
-
添加了数据大小...我还没有响应要求。
标签: hadoop hive olap olap-cube impala