【发布时间】:2018-10-11 14:42:05
【问题描述】:
目前,Athena 查询结果在 S3 中采用 tsv 格式。有什么方法可以配置 Athena 查询以 Parquet 格式返回结果。
【问题讨论】:
标签: amazon-web-services csv amazon-s3 parquet amazon-athena
目前,Athena 查询结果在 S3 中采用 tsv 格式。有什么方法可以配置 Athena 查询以 Parquet 格式返回结果。
【问题讨论】:
标签: amazon-web-services csv amazon-s3 parquet amazon-athena
回答
目前无法直接使用 Athena 执行此操作。在配置 Athena 查询结果时,您只能设置查询结果位置和加密配置。
解决方法
1) 从10月起Athena支持CTAS查询,你可以试试这个功能。
https://docs.aws.amazon.com/athena/latest/ug/ctas.html
https://docs.aws.amazon.com/athena/latest/ug/ctas-examples.html
我想你可能会对示例 4 或 5 感兴趣。
2) 您可以创建 Python 脚本并使用 Boto3 框架。这是示例,您可以根据您的要求调整此脚本,并将保存查询结果添加到 parquet 格式。
https://gist.github.com/schledererj/b2e2a800998d61af2bbdd1cd50e08b76
3) 如果您想转换您的数据,您应该使用 AWS EMR 或 AWS Glue 等服务。
【讨论】: