【发布时间】:2018-03-18 17:02:09
【问题描述】:
我正在运行一个 pyspark 作业,它创建一个数据帧并将其存储到 S3,如下所示:
df.write.saveAsTable(table_name, format="orc", mode="overwrite", path=s3_path)
我可以毫无问题地读取 orcfile,只需使用 spark.read.orc(s3_path),因此 orcfile 中存在模式信息,正如预期的那样。
但是,我真的很想使用 Athena 查看数据框内容。显然,如果我写信给我的 hive 元存储,我可以调用 hive 并执行 show create table ${table_name},但是当我想要一个简单的模式时,这会是很多工作。
还有其他方法吗?
【问题讨论】:
标签: amazon-web-services apache-spark amazon-athena orc