【发布时间】:2020-10-16 04:30:37
【问题描述】:
我有一个如下所示的数据集:
+------------------------|-----+
| timestamp| zone|
+------------------------+-----+
| 2019-01-01 00:05:00 | A|
| 2019-01-01 00:05:00 | A|
| 2019-01-01 00:05:00 | B|
| 2019-01-01 01:05:00 | C|
| 2019-01-01 02:05:00 | B|
| 2019-01-01 02:05:00 | B|
+------------------------+-----+
每小时我需要计算哪个区域的行数最多,并最终得到一个如下所示的表格:
+-----|-----+-----+
| hour| zone| max |
+-----+-----+-----+
| 0| A| 2|
| 1| C| 1|
| 2| B| 2|
+-----+-----+-----+
我的说明说我需要使用 Window 函数和“group by”来找到我的最大计数。
我已经尝试了一些方法,但我不确定我是否接近。任何帮助将不胜感激。
【问题讨论】:
标签: scala apache-spark apache-spark-sql