【问题标题】:AWS lambda function and Athena to create partitioned tableAWS lambda 函数和 Athena 创建分区表
【发布时间】:2020-08-03 14:16:29
【问题描述】:

这是我的要求。每天我都会将 CSV 文件接收到 S3 存储桶中。我需要对这些数据进行分区并将其存储到 Parquet 中以最终映射一个表。我正在考虑使用上传文件时触发的 AWS lambda 函数。我不确定这样做的步骤是什么。

【问题讨论】:

  • 您的 CSV 文件有多大?根据大小,您还可以利用 Glue 转换和分区 CSV 数据
  • 65MB,它会保持相当稳定,日复一日。使用 Glue 的尺寸合适吗?

标签: amazon-web-services amazon-s3 aws-lambda parquet


【解决方案1】:

有(像 AWS 一样!)有几种方法可以做到这一点,我首先想到的 2 种方法是:

  1. 使用 Cloudwatch 事件,将 S3 PutObject 对象级别)操作作为触发器,并将您已经创建的 lambda 函数作为目标。
  2. 从 Lambda 函数开始,添加后缀过滤的触发器会稍微容易一些,例如,对于任何 .csv 文件,通过转到控制台中的函数配置,然后在 Designer 部分添加触发器,然后选择 S3 和您要使用的操作,例如存储桶、事件类型、前缀、后缀。

在这两种情况下,您都需要编写 lambda 函数来完成您所描述的工作,并且需要 IAM 访问存储桶来提取文件并处理它们。

【讨论】:

    猜你喜欢
    • 2019-05-03
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-01-20
    • 2019-09-16
    • 2022-10-14
    相关资源
    最近更新 更多