在 S3 中为多个文件执行 lambda 函数答案

【问题标题】：Execute lambda function for multiple files in S3在 S3 中为多个文件执行 lambda 函数
【发布时间】：2019-10-19 13:54:36
【问题描述】：

我试图找出在随机添加文件时一次在 S3 中处理多个文件的逻辑。为了讨论起见，这里有一个例子：

这是我尝试过的：

【问题讨论】：

也许预定的 lambda 可以实现这一点？
可能，但如果我将时间表设置为接近实时（比如每 5 秒），它可能无法按预期工作。我不能保证我的函数会在
对于仅添加3个文件（或数量少于9个）并且2小时没有更多文件或流量的情况，您是否希望lambda处理这3个文件？这些文件有多大？文件是如何放入存储桶的？应用程序接口？还是用户直接使用 URL 发起的？

【解决方案1】：

一种可能的解决方案是使用计划的 lambda（可以根据您的流量尽可能频繁或尽可能稀疏），从由 S3 put 事件填充的 SQS 队列中提取事件。假设您一次专注于批处理 n 文件，并且顺序无关紧要（给定 uuid 命名）。

要创建这个工作流程，应该是这样的：

根据您的具体情况，需要记住的其他一些事项：

【讨论】：

【解决方案2】：

您还可以考虑使用触发 lambda/glue 作业的 step 函数将文件进一步复制到 Redshift/s3，引入一些文件计数逻辑（假设到达的文件数量固定）/等待时间（例如 30分钟假设所有文件都已登陆）。这不是完美的解决方案，但如果您修复文件流，它可能会工作得很好。

【讨论】：