【发布时间】:2018-08-28 22:23:53
【问题描述】:
我正在尝试通过在 pyspark 中加入这两个表来提取数据。我的加入查询看起来像:
SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date
它正在抛出错误:
Error:Py4JJavaError: 调用时出错 z:org.apache.zeppelin.spark.ZeppelinContext.showDF
但是,当我尝试从每个表中提取数据时,它工作正常。我的单表查询就像
SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000
这两个查询工作正常。任何人都可以通过加入帮助我从两个表中提取数据。
如果有人可以分享任何此类链接,那将非常有帮助,这可以指导我在 pyspark 中编写高效的查询。
【问题讨论】: