【发布时间】:2017-07-05 11:27:47
【问题描述】:
正常的sql查询:
SELECT DISTINCT(county_geoid), state_geoid, sum(PredResponse), sum(prop_count) FROM table_a GROUP BY county_geoid;
给我一个输出。但是,在 pyspark 中使用的同一查询的 spark sql 版本给了我一个错误。如何解决这个问题?
result_county_performance_alpha = spark.sql("SELECT distinct(county_geoid), sum(PredResponse), sum(prop_count), state_geoid FROM table_a group by county_geoid")
这给出了一个错误:
AnalysisException: u"expression 'tract_alpha.`state_geoid`' 既不存在于 group by 中,也不是聚合函数。如果您不关心,请添加到 group by 或包裹在 first()(或 first_value)中你得到什么价值。;
如何解决这个问题?
【问题讨论】:
标签: python mysql apache-spark pyspark apache-spark-sql