【问题标题】:How to migrate data from s3 bucket to glacier?如何将数据从 s3 存储桶迁移到冰川?
【发布时间】:2021-05-11 07:04:03
【问题描述】:

我有一个包含 pdf 文件的 TB 大小的 S3 存储桶。我需要将旧文件迁移到冰川。我知道我可以创建一个生命周期规则来迁移超过一定天数的文件。但就我而言,目前存储桶包含新旧 pdf 文件,并且它们是同时添加的。所以他们可能有相同的上传日期。在这种情况下,生命周期规则将没有用处。

在 pdf 文件中有一个名为 capture_date 的字段。所以我需要根据 capture_date 迁移这些文件。 (即:如果 capture_date

Fargate 作业在这里有用吗?如果有,请简要介绍一下。

请提出您的想法。提前致谢

【问题讨论】:

  • 这些文件有多大?你能在 lambda 中处理它们吗?
  • 每个 pdf 文件大约为 10 mb
  • 顺便说一句,忘记从 pdf 中选择的 capture_date。因为我可以从我的弹性搜索索引中得到它。请提出一个在不使用生命周期规则的情况下迁移的想法
  • 进展如何?仍然不清楚您可以做些什么来解决您的问题?
  • 是的。现在我正在从 aws 上的 ES 集群中获取这些文件的 capture_dates。问题是,因为我们只需要在 s3 中保留不超过 5 年(按 capture_date)的文件。出于这个原因,我需要一个逻辑。因为随着时间的推移,我们可能需要选择不同的文件集来恢复到 s3。所以我正在寻找解决方案

标签: amazon-web-services amazon-s3 amazon-glacier


【解决方案1】:

S3 本身不会读取您的 pdf 文件。因此,您必须自己阅读它们,提取确定哪些是新旧的数据,并使用 AWS 开发工具包(或 CLI)将它们移动到 Glacier。

由于文件不是太大,您可以使用S3 Batch 和 lambda 函数来将类更改为冰川。

或者,您可以在 EC2 实例上执行此操作,使用 S3 Inventory 的对象的 CSV 列表(假设它们很多)。

最传统的方法是列出你的存储桶,然后遍历每个对象。

【讨论】:

猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2023-03-22
  • 1970-01-01
  • 2020-04-27
  • 1970-01-01
  • 2020-12-15
  • 2020-11-09
相关资源
最近更新 更多