【发布时间】:2017-05-16 06:09:10
【问题描述】:
有没有办法在选择多个元素的 sql spark 中按表分组 我正在使用的代码:
val df = spark.read.json("//path")
df.createOrReplaceTempView("GETBYID")
现在按赞分组:
val sqlDF = spark.sql(
"SELECT count(customerId) FROM GETBYID group by customerId");
但是当我尝试时:
val sqlDF = spark.sql(
"SELECT count(customerId),customerId,userId FROM GETBYID group by customerId");
Spark 报错:
org.apache.spark.sql.AnalysisException: 表达式'getbyid.
userId' 既不存在于 group by 中,也不是聚合函数。 如果您不关心,请添加到分组依据或包装在 first() (或 first_value)中 你得到什么价值。;
有什么办法可以做到吗
【问题讨论】:
标签: scala apache-spark apache-spark-sql bigdata