【问题标题】:Amazon Athena and compressed S3 filesAmazon Athena 和压缩的 S3 文件
【发布时间】:2017-05-04 22:54:03
【问题描述】:

我有一个 S3 存储桶,其中包含几个压缩的 CSV 文件(使用日志)。我想用 Athena 查询这些数据,但输出完全是乱码。

似乎 Athena 正在尝试解析 zip 文件而不先解压缩它们。是否可以强制 Hive 将我的文件识别为压缩数据?

【问题讨论】:

    标签: amazon-web-services amazon-athena


    【解决方案1】:

    支持 Athena 压缩,但 supported formats

    • Snappy (.snappy)
    • Zlib (.bz2)
    • GZIP (.gz)

    这些格式是通过它们的文件名后缀来检测的。如果后缀不匹配,则阅读器不会解码内容。 我用 test.csv.gz 文件对其进行了测试,它立即工作。所以尝试将压缩从 zip 更改为 gzip,它应该可以工作。

    【讨论】:

    • 谢谢詹斯。我担心这可能是答案。我无法控制此存储桶中的格式,我需要安排一个作业以编程方式解压缩并将它们存储在其他位置。
    猜你喜欢
    • 2012-01-08
    • 1970-01-01
    • 2014-12-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2019-07-18
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多