【问题标题】:Spark Scala Dataset cannot use agg functionSpark Scala 数据集不能使用 agg 函数
【发布时间】:2022-09-22 21:13:45
【问题描述】:

我正在尝试让 scala 和 spark 使用数据集和聚合函数。

val keyValueGroupedDataset =  dataset
  .map(mapFunctionToTheSchema)
  .groupByKey(a => a.key)

val calculatedAverage = keyValueGroupedDataset.agg(???)

基于 mapFunctionToTheSchema (返回多个记录,例如): (键:长,值:长)

我试图计算每个键的平均值。

但是,每当我尝试这样做时

> (for instance in: 
> org.apache.spark.sql.functions.avg(myEncoder.schema(\"columnName\").name).as(\"average\")

Cannot resolve overloaded method \'agg\'

我不确定,我做错了什么,因为所有其他教程/stackoverflows 问题都表明它应该可以工作。

    标签: scala apache-spark apache-spark-sql apache-spark-dataset


    【解决方案1】:

    我有点自己回答了。

    我用过 typed.avg[Class](yourClassElement => yourClassElement.field)

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2023-04-09
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-04-06
      相关资源
      最近更新 更多