【问题标题】:Error while extracting the data from two dataframe using SQL使用 SQL 从两个数据帧中提取数据时出错
【发布时间】:2018-08-28 22:23:53
【问题描述】:

我正在尝试通过在 pyspark 中加入这两个表来提取数据。我的加入查询看起来像:

SELECT COUNT(DISTINCT m.ticker),to_date(m.date) FROM extractalpha_cam2 m LEFT OUTER JOIN TOP1000 u ON u.date = to_date(m.date) GROUP BY m.date ORDER BY m.date

它正在抛出错误:

Error:Py4JJavaError: 调用时出错 z:org.apache.zeppelin.spark.ZeppelinContext.showDF

但是,当我尝试从每个表中提取数据时,它工作正常。我的单表查询就像

SELECT to_date(date) FROM extractalpha_cam2
SELECT date from TOP1000

这两个查询工作正常。任何人都可以通过加入帮助我从两个表中提取数据。

如果有人可以分享任何此类链接,那将非常有帮助,这可以指导我在 pyspark 中编写高效的查询。

【问题讨论】:

    标签: pyspark apache-zeppelin


    【解决方案1】:

    我检查并发现,当您正在运行的作业花费的时间超过您设置的超时时间时,就会出现此错误。在我的例子中是 300 秒。

    如果有人有比这更有价值的答案,请告诉我。谢谢

    【讨论】:

      猜你喜欢
      • 2018-04-08
      • 1970-01-01
      • 2021-03-20
      • 2022-07-20
      • 2020-12-15
      • 2020-01-20
      • 2021-03-22
      • 1970-01-01
      • 2016-04-28
      相关资源
      最近更新 更多