【发布时间】:2021-02-01 19:31:25
【问题描述】:
我有一个与下面的示例类似的表格:
id value group
a 2 0
b 3 0
c 4 0
d 6 0
e 4 0
f 3 1
g 2 1
h 1 1
i 0 1
j 3 1
group 列是每个数据组的标志。从 0 到 0 是第一组的符号,因此从 1 到 1 也是第二组的符号。我想创建一个新表,它是每个组的基本统计(均值、中位数、标准偏差、方差等)估计的结果。
我意识到我需要先聚合它们才能估计基本统计数据。
想要的表应该是这样的:
group max min mean median stdt var
0 6 2 3,8
1 3 0
2
我应该如何编写我的 spark sql 以获得所需的结果?
提前谢谢你。
【问题讨论】:
-
另见 Spark SQL 中的 this answer
标签: apache-spark-sql statistics