【发布时间】:2020-01-10 21:42:26
【问题描述】:
如何将以下基于 oracle 的 sql 查询写入等效的 pyspark sql,因为这是由于嵌套在 spark.sql(*query) 下而不受支持 有没有办法使用 pyspark 数据框来编写这个?
SELECT TABLE1.COL1
FROM TABLE1
WHERE COL2 = (
SELECT MAX(COL2)
FROM TABLE1
WHERE TABLE1.COL3 = TABLE2.COL3 OR TABLE1.COL4 = TABLE2.COL4
)
TABLE1 有列 COL1, COL2, COL3, COL4
TABLE2 有列COL3, COL4
【问题讨论】:
标签: pyspark pyspark-sql pyspark-dataframes