【发布时间】:2018-08-03 20:37:51
【问题描述】:
我在 S3 存储桶中有一个压缩的 gzip 文件。这些文件将由客户端每天上传到 S3 存储桶。解压缩后的 gzip 将包含 10 个 CSV 格式的文件,但仅具有相同的架构。我需要解压缩 gzip 文件,并使用 Glue->Data crawler,需要在使用 dev 运行 ETL 脚本之前创建一个模式。端点。
胶水能够解压缩 zip 文件并创建数据目录。或者我们可以直接在 python ETL 脚本中使用的任何可用的胶水库?还是我应该选择 Lambda/任何其他实用程序,以便在上传 zip 文件后立即运行一个实用程序来解压缩并作为 Glue 的输入提供?
感谢任何回复。
【问题讨论】:
标签: amazon-web-services aws-glue