【发布时间】:2018-07-04 21:36:21
【问题描述】:
我在 S3 存储桶中有一个压缩的 gzip 文件。这些文件将由客户端每天上传到 S3 存储桶。解压缩后的 gzip 将包含 10 个 CSV 格式的文件,但仅具有相同的架构。我的目标是处理 gzip 文件,使用数据爬虫创建表模式,然后将所有数据作为 parquet 文件加载/合并到新的单个表中。
Glue 爬虫能否读取 gz 文件并根据文件列表创建创建表。请帮忙解决。
谢谢。
【问题讨论】:
-
你找到方法了吗?它需要自定义分类器吗?请分享您找到的任何方式。谢谢
标签: amazon-web-services aws-glue