【发布时间】:2015-07-16 16:52:04
【问题描述】:
我的 HDFS 中有大约 4 个演出的 JSON,我使用 JSON Serde 创建了一个 Hive 表。最终数据预计在 25GB 左右。
该表有 10 列,全部为 int。我需要计算每个“单元格”的百分位数,并为每列插入一个单独的列。 所以我的最终结果是:
col1 col2 col3 .... col10 perCol1 perCol2 ... perCol10
100 200 123 423 82.44 58.22 18.42
所以perCol10 中的18.42 是col10 中的423 相对于整个col10 的百分位数。
以前我在内存中使用 NumPy 数组的(小得多的)数据集做同样的事情。但是作为 HiveQL 和数据库的新手,我真的不知道从哪里开始,所以任何帮助或指点都将不胜感激!
从一些初步研究来看,cume_dist 似乎很有趣,但我不明白如何在我的用例中使用它。
非常感谢。
【问题讨论】: