【发布时间】:2018-06-26 11:20:01
【问题描述】:
所以在 Python 编码方面我还是个菜鸟,但我想知道是否有人可以帮助我解决问题。
我工作的客户使用电子发现系统 Venio。他们有一个 Web、应用程序、数据库和 linux 服务器,运行 AWS 中的 EC2 实例。
现在,当客户将文档上传到他们的服务器时,他们最终会将内容重新下载到另一个驱动器,这给他们自己带来了额外的工作。在他们的系统上提供文件时,还有一个速度问题。
在 Lambda 中使用脚本设置自动快照后,我开始考虑将它们的海量文件存储在 S3 中,在 CloudFront 之后可能是更好的选择。
有谁知道是否有办法制作一个 Python 脚本来查找文件中的关键字(例如“使用”、“丢弃”),并自动将它们分成不同的存储桶?
任何建议将不胜感激!
更新:
所以这是我开始的一个脚本:
import boto3
# Creates S3 client
s3 = boto3.client('s3')
filename = 'file.txt'
bucket_name = 'responsive-bucket'
keyword_bucket = {
'use': 'responsive-bucket',
'discard': 'non-responsive-bucket',
}
基本上我想要的是当客户端通过 Web API 上传文件时,会触发一个 python 脚本来查找响应或非响应的关键字。一旦识别出这些密钥,它就会将这些文件放入相应的命名存储桶中。响应文件将保留在标准 s3 存储桶中,无用文件将进入 s3-IA 存储桶。在设定的时间之后,它们将进入 Glacier 的生命周期。
任何帮助都会很棒!!!
【问题讨论】:
标签: python amazon-s3 automation aws-lambda amazon-glacier