【发布时间】:2019-10-17 02:21:39
【问题描述】:
我正在寻找一种方法来计算一些统计数据,例如使用 Scala 在 Spark 中的几个选定列上的平均值。鉴于 data 对象是我的 Spark DataFrame,因此很容易仅计算一列的平均值,例如
data.agg(avg("var1") as "mean var1").show
此外,我们可以轻松计算按其他列的值交叉制表的平均值,例如:
data.groupBy("category").agg(avg("var1") as "mean_var1").show
但是我们如何计算 DataFrame 中列列表的平均值呢?我试过运行这样的东西,但没有用:
scala> data.select("var1", "var2").mean().show
<console>:44: error: value mean is not a member of org.apache.spark.sql.DataFrame
data.select("var1", "var2").mean().show
^
【问题讨论】:
标签: scala apache-spark