【问题标题】:Use Apache Airflow to edit CSV stored in AWS S3 without download使用 Apache Airflow 编辑存储在 AWS S3 中的 CSV,无需下载
【发布时间】:2020-03-15 16:28:32
【问题描述】:
我有一个项目需要定期转换大量 CSV 数据。此数据将存储在 S3 中,我使用运行 Ubuntu 服务器 16.04 的 EC2 实例对数据执行编辑,并使用 Apache Airflow 路由数据。将此数据下载并重新上传到 S3 非常昂贵,有没有办法可以在内存中编辑此 CSV 数据,而无需将文件下载到 Ubuntu 实例上的本地存储?
提前谢谢你
【问题讨论】:
标签:
amazon-web-services
ubuntu
amazon-s3
amazon-ec2
airflow
【解决方案1】:
一般而言,您可以考虑从 s3 获取 CSV 文件(使用 s3 sdk)并将其存储并转换到内存中然后保存回 s3 的程序。但它仍然需要“下载和重新上传”。唯一的区别是文件不会物理存储到本地磁盘,而是保存在程序内存中。
您还可以使用s3fs 将 s3 存储桶挂载到服务器上的目录并直接对文件执行请求的操作。
但是它们仍然需要从 s3 下载并重新上传到那里(尽管它是即时的并且对您不可见)。
希望对您有所帮助。