【问题标题】:Exporting Spark Dataframe to Athena将 Spark Dataframe 导出到 Athena
【发布时间】:2018-03-18 17:02:09
【问题描述】:

我正在运行一个 pyspark 作业,它创建一个数据帧并将其存储到 S3,如下所示:

df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path)

我可以毫无问题地读取 orcfile,只需使用 spark.read.orc(s3_path),因此 orcfile 中存在模式信息,正如预期的那样。

但是,我真的很想使用 Athena 查看数据框内容。显然,如果我写信给我的 hive 元存储,我可以调用 hive 并执行 show create table ${table_name},但是当我想要一个简单的模式时,这会是很多工作。

还有其他方法吗?

【问题讨论】:

    标签: amazon-web-services apache-spark amazon-athena orc


    【解决方案1】:

    其中一种方法是为您的 S3 路径设置 Glue crawler,这将在 AWS Glue 数据目录中创建一个表。或者,您可以通过 Glue API 创建 Glue 表定义。

    AWS Glue 数据目录与 Athena 完全集成,因此您可以在 Athena 中看到您的 Glue 表,并能够直接查询它: http://docs.aws.amazon.com/athena/latest/ug/glue-athena.html

    【讨论】:

      猜你喜欢
      • 2021-05-14
      • 2019-04-16
      • 2018-08-24
      • 2018-09-21
      • 1970-01-01
      • 2021-10-15
      • 1970-01-01
      • 2021-06-04
      • 1970-01-01
      相关资源
      最近更新 更多