“必须聚合相关的标量子查询”是什么意思？答案

【问题标题】：What does "Correlated scalar subqueries must be Aggregated" mean?“必须聚合相关的标量子查询”是什么意思？
【发布时间】：2018-05-28 15:59:19
【问题描述】：

我使用 Spark 2.0。

我想执行以下 SQL 查询：

val sqlText = """
select
  f.ID as TID,
  f.BldgID as TBldgID,
  f.LeaseID as TLeaseID,
  f.Period as TPeriod,
  coalesce(
    (select
       f ChargeAmt
     from
       Fact_CMCharges f
     where
       f.BldgID = Fact_CMCharges.BldgID
     limit 1),
     0) as TChargeAmt1,
  f.ChargeAmt as TChargeAmt2,
  l.EFFDATE as TBreakDate
from
  Fact_CMCharges f
join
  CMRECC l on l.BLDGID = f.BldgID and l.LEASID = f.LeaseID and l.INCCAT = f.IncomeCat and date_format(l.EFFDATE,'D')<>1 and f.Period=EFFDateInt(l.EFFDATE) 
where
  f.ActualProjected = 'Lease'
except(
  select * from TT1 t2 left semi join Fact_CMCharges f2 on t2.TID=f2.ID) 
"""
val query = spark.sql(sqlText)
query.show()

coalesce 中的内部语句似乎给出了以下错误：

pyspark.sql.utils.AnalysisException: u'Correlated scalar subqueries must be Aggregated: GlobalLimit 1\n+- LocalLimit 1\n

查询有什么问题？

【问题讨论】：

@Gotch 我发现stackoverflow.com/questions/33933118/… 查询的概念并不是那么简单的执行方式。但我有时将查询放在“查询.......查询”之间，它在某些情况下对我有用，但在这里没有得到具体的想法

标签： apache-spark apache-spark-sql pyspark-sql

【解决方案1】：

您必须确保您的子查询按定义（而不是按数据）仅返回一行。否则 Spark Analyzer 在解析 SQL 语句时会报错。

因此，如果仅通过查看 SQL 语句（不查看您的数据），催化剂不能 100% 确定子查询仅返回单行，则会引发此异常。

如果您确定您的子查询只提供一行，您可以使用以下aggregation standard functions 之一，因此 Spark Analyzer 很高兴：

first
avg
max
min

【讨论】：

我认为这些函数名必须大写（FIRST、AVG等）
SQL 大小写无关，python 需要小写gist.github.com/romeokienzler/bfebc1c84dd2846d5b36f1182608fb9e
并非总是如此。 Spark SQL 可以配置为区分大小写。 stackoverflow.com/questions/42946104/…