如何将数据从 s3 存储桶迁移到冰川？答案

【问题标题】：How to migrate data from s3 bucket to glacier?如何将数据从 s3 存储桶迁移到冰川？
【发布时间】：2021-05-11 07:04:03
【问题描述】：

我有一个包含 pdf 文件的 TB 大小的 S3 存储桶。我需要将旧文件迁移到冰川。我知道我可以创建一个生命周期规则来迁移超过一定天数的文件。但就我而言，目前存储桶包含新旧 pdf 文件，并且它们是同时添加的。所以他们可能有相同的上传日期。在这种情况下，生命周期规则将没有用处。

在 pdf 文件中有一个名为 capture_date 的字段。所以我需要根据 capture_date 迁移这些文件。（即：如果 capture_date

Fargate 作业在这里有用吗？如果有，请简要介绍一下。

请提出您的想法。提前致谢

【问题讨论】：

这些文件有多大？你能在 lambda 中处理它们吗？
每个 pdf 文件大约为 10 mb
顺便说一句，忘记从 pdf 中选择的 capture_date。因为我可以从我的弹性搜索索引中得到它。请提出一个在不使用生命周期规则的情况下迁移的想法
进展如何？仍然不清楚您可以做些什么来解决您的问题？
是的。现在我正在从 aws 上的 ES 集群中获取这些文件的 capture_dates。问题是，因为我们只需要在 s3 中保留不超过 5 年（按 capture_date）的文件。出于这个原因，我需要一个逻辑。因为随着时间的推移，我们可能需要选择不同的文件集来恢复到 s3。所以我正在寻找解决方案

【解决方案1】：

S3 本身不会读取您的 pdf 文件。因此，您必须自己阅读它们，提取确定哪些是新旧的数据，并使用 AWS 开发工具包（或 CLI）将它们移动到 Glacier。

由于文件不是太大，您可以使用S3 Batch 和 lambda 函数来将类更改为冰川。

或者，您可以在 EC2 实例上执行此操作，使用 S3 Inventory 的对象的 CSV 列表（假设它们很多）。

最传统的方法是列出你的存储桶，然后遍历每个对象。

【讨论】：