【问题标题】:Use Apache Airflow to edit CSV stored in AWS S3 without download使用 Apache Airflow 编辑存储在 AWS S3 中的 CSV,无需下载
【发布时间】:2020-03-15 16:28:32
【问题描述】:

我有一个项目需要定期转换大量 CSV 数据。此数据将存储在 S3 中,我使用运行 Ubuntu 服务器 16.04 的 EC2 实例对数据执行编辑,并使用 Apache Airflow 路由数据。将此数据下载并重新上传到 S3 非常昂贵,有没有办法可以在内存中编辑此 CSV 数据,而无需将文件下载到 Ubuntu 实例上的本地存储?

提前谢谢你

【问题讨论】:

    标签: amazon-web-services ubuntu amazon-s3 amazon-ec2 airflow


    【解决方案1】:

    一般而言,您可以考虑从 s3 获取 CSV 文件(使用 s3 sdk)并将其存储并转换到内存中然后保存回 s3 的程序。但它仍然需要“下载和重新上传”。唯一的区别是文件不会物理存储到本地磁盘,而是保存在程序内存中。

    您还可以使用s3fs 将 s3 存储桶挂载到服务器上的目录并直接对文件执行请求的操作。 但是它们仍然需要从 s3 下载并重新上传到那里(尽管它是即时的并且对您不可见)。

    希望对您有所帮助。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-04-30
      • 2021-02-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-08-02
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多