将 Spark Dataframe 导出到 Athena答案

【问题标题】：Exporting Spark Dataframe to Athena将 Spark Dataframe 导出到 Athena
【发布时间】：2018-03-18 17:02:09
【问题描述】：

我正在运行一个 pyspark 作业，它创建一个数据帧并将其存储到 S3，如下所示：

df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path)

我可以毫无问题地读取 orcfile，只需使用 spark.read.orc(s3_path)，因此 orcfile 中存在模式信息，正如预期的那样。

但是，我真的很想使用 Athena 查看数据框内容。显然，如果我写信给我的 hive 元存储，我可以调用 hive 并执行 show create table ${table_name}，但是当我想要一个简单的模式时，这会是很多工作。

还有其他方法吗？

【问题讨论】：

【解决方案1】：

其中一种方法是为您的 S3 路径设置 Glue crawler，这将在 AWS Glue 数据目录中创建一个表。或者，您可以通过 Glue API 创建 Glue 表定义。

AWS Glue 数据目录与 Athena 完全集成，因此您可以在 Athena 中看到您的 Glue 表，并能够直接查询它： http://docs.aws.amazon.com/athena/latest/ug/glue-athena.html

【讨论】：