【发布时间】:2023-03-07 19:03:02
【问题描述】:
我制作了一个可以下载大量 PDF 的网络爬虫。该脚本基本上是一个循环,每次迭代下载一个 PDF(~8 MB)。总文件大小估计>300GB。我在想,与其创建具有那么多存储空间的实例,不如在下载 PDF 后立即将它们放入 S3 存储桶中。
我将使用 t2.xlarge ubuntu 系统。该循环应该运行 2 周,所以我相信使用 S3 存储桶而不是为 t2 购买额外的存储会更便宜。
问题是脚本下载 /Downloads 文件夹中的 PDF。我想我需要使用 s3fs 安装一个存储桶?然后我将递归复制Downloads文件夹中的文件并粘贴到挂载的bucket中,然后使用rm删除\Downloads文件夹中的所有内容。这是要走的路还有更直接的方法吗?
任何帮助或文档链接将不胜感激!谢谢!
相关帖子:
【问题讨论】:
标签: amazon-web-services amazon-s3 amazon-ec2