【发布时间】:2020-08-03 14:16:29
【问题描述】:
这是我的要求。每天我都会将 CSV 文件接收到 S3 存储桶中。我需要对这些数据进行分区并将其存储到 Parquet 中以最终映射一个表。我正在考虑使用上传文件时触发的 AWS lambda 函数。我不确定这样做的步骤是什么。
【问题讨论】:
-
您的 CSV 文件有多大?根据大小,您还可以利用 Glue 转换和分区 CSV 数据
-
65MB,它会保持相当稳定,日复一日。使用 Glue 的尺寸合适吗?
标签: amazon-web-services amazon-s3 aws-lambda parquet