【发布时间】:2020-05-22 06:43:04
【问题描述】:
我有一个小的 Python 脚本,它运行 Lambda 作业,以便在上传文件后立即将文件从不受限制的 s3 存储桶移动到受限制的 s3 存储桶。最初的目标是 50GB 文件,现在是 500GB 文件(或更大)的目标。 Lambda 容器在 15 分钟停止,我只能在 Lambda 超时结束前传输大约 100GB。
s3_resource = boto3.resource('s3') #for s3 delete function
... other stuff ...
s3_resource.meta.client.copy(Bucket=target_bucket, Key=key, CopySource=copy_source, ExtraArgs={'ServerSideEncryption':'AES256'})
#boto3 manual states s3_resource.meta.client.copy "is a managed transfer which will perform a multipart copy in multiple threads if necessary."
我环顾四周,发现的选项是:
- 使用 ECS 容器运行作业,由 s3 事件和 lambda 触发
- 使用 Step Functions 为分段上传生成一个循环,持续时间超过 15 分钟
我还没有使用过以太服务。 ECS 与 Step Function 的优缺点是什么?他们是否可以调整其他方式(代码或设置)以提高文件传输限制。
更新 1 系统详情。
“公共”存储桶用于 SFTP 服务。这是替换 Linux 机器上的 SFTP 服务器。 当文件发送给我时,Lambda 会检查内部需要放置的位置。 当我使文件可供下载时,该文件所在目录的 lambda 会将其放置在正确的 SFTP 目录中。在给定窗口之后存储桶策略存档文件,除非再次需要,否则不允许下载它们。 目标是发送给我的文件不会保留在公开/SFTP 公开的存储桶上。当文件发布以供下载时,它们只会在一段时间内存在。而我的内部存储桶保留和使用文件。 即使有 SFTP 访问控制层,我也希望外部暴露的存储桶大部分是空的。
更新 1 找到 Step Function 分段上传示例
我发现了一个示例,其中包含一些分段上传的代码片段(顺序 [a, 然后 b, 然后 c...] 和并行部分 [a, b, and c, 然后...] )。它看起来确实像很多会话 ID 管理。不同的是,在很长时间没有看它之后,我不想在 6 个月内遇到麻烦。
【问题讨论】:
-
你可以选择使用 scp 吗?
-
@Danizavtz scp = 安全复制 linux 命令?我正在尝试无服务器。当我的机器在 15 分钟后没有超时时,我可以很好地移动这些大文件。 scp = aws 安全控制策略?如果您的想法是通过解决对象权限来避免移动,则移动作业具有一些有助于在上传后组织文件的逻辑。
-
我的意思是linux命令。
-
我在考虑简单的解决方案,也许在复制之前做一些 tar.gz。如果文件大小变为 100GB 左右,也许您无需对代码进行大的更改即可完成这项工作。
-
S3 复制是这里最好的解决方案,如果你可以使用它的话。您甚至不再需要您的 Lambda 函数。关于
scp的建议对于 S3 毫无意义。如果您必须自己构建它,我会在 Fargate 上使用 S3 通知 -> SQS 队列 -> ECS 任务,该任务会根据队列的深度自动缩放。我看不出 Step Functions 是如何工作的,如果可能的话,协调跨多个 Lambda 实例的分段上传似乎很容易出错。
标签: python amazon-web-services amazon-s3 aws-lambda boto3