【问题标题】:Process a compressed gz file to create table schema using Glue Data crawler使用 Glue 数据爬虫处理压缩的 gz 文件以创建表模式
【发布时间】:2018-07-04 21:36:21
【问题描述】:

我在 S3 存储桶中有一个压缩的 gzip 文件。这些文件将由客户端每天上传到 S3 存储桶。解压缩后的 gzip 将包含 10 个 CSV 格式的文件,但仅具有相同的架构。我的目标是处理 gzip 文件,使用数据爬虫创建表模式,然后将所有数据作为 parquet 文件加载/合并到新的单个表中。

Glue 爬虫能否读取 gz 文件并根据文件列表创建创建表。请帮忙解决。

谢谢。

【问题讨论】:

  • 你找到方法了吗?它需要自定义分类器吗?请分享您找到的任何方式。谢谢

标签: amazon-web-services aws-glue


【解决方案1】:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2020-03-09
    • 1970-01-01
    • 2021-08-09
    • 2022-08-21
    • 2014-07-31
    • 1970-01-01
    相关资源
    最近更新 更多