【问题标题】:Transfering data from gcs to s3 with google-cloud-storage使用 google-cloud-storage 将数据从 gcs 传输到 s3
【发布时间】:2018-04-04 03:54:01
【问题描述】:

我正在制作一个小应用程序,用于将数据从 BigQuery 导出到 google-cloud-storage,然后将其复制到 aws s3,但无法找到如何在 python 中执行此操作。

我已经在 kotlin 中编写了代码(因为它对我来说最简单,而且我的问题范围之外的原因,我们希望它在 python 中运行),而在 kotlin 中,google sdk 允许我得到一个 @ 987654323@ 来自Blob 对象,然后我可以将其注入amazon s3 sdk's AmazonS3.putObject(String bucketName, String key, InputStream input, ObjectMetadata metadata)

使用python sdk 似乎我只能选择将文件下载到文件并作为字符串。

我想(就像我在 kotlin 中所做的那样)将从 Blob 对象返回的一些对象传递给 AmazonS3.putObject() 方法,而不必先将内容保存为文件。

我绝不是 python 专业人士,所以我可能错过了一个明显的方法。

【问题讨论】:

  • 这是您需要经常做的事情,还是只需要做一次?如果是后者(或者如果您不介意编写脚本),您可以使用 gsutil 来执行此操作: gsutil -m cp -r gs://your-gcs-bucket s3://your-s3-bucket
  • 我需要定期执行此操作,因此我希望在代码中使用它而不是使用 gsutil 在 bash 中编写脚本。 (我们使用数据管道和/或气流来做这些事情,而 gsutil/google sdk 从头开始​​设置起来很痛苦。
  • 如果您使用 Airflow,为什么不使用 bash 运算符和 gsutil 命令?这里有一个类似的例子stackoverflow.com/a/53248802/435089

标签: python amazon-s3 google-cloud-storage boto3


【解决方案1】:

我最终得到了以下解决方案,显然download_to_filename 将数据下载到boto3 s3 client 可以处理的类文件对象中。

这对于较小的文件非常有效,但由于它将所有文件都缓冲在内存中,因此对于较大的文件可能会出现问题。

def copy_data_from_gcs_to_s3(gcs_bucket, gcs_filename, s3_bucket, s3_filename):
gcs_client = storage.Client(project="my-project")

bucket = gcs_client.get_bucket(gcs_bucket)
blob = bucket.blob(gcs_filename)

data = BytesIO()
blob.download_to_file(data)
data.seek(0)

s3 = boto3.client("s3")
s3.upload_fileobj(data, s3_bucket, s3_filename)

如果有人有关于 BytesIO 以外的信息/知识来处理数据(fx。所以我可以将数据直接流式传输到 s3,而不必将其缓冲在主机上的内存中),我们将不胜感激.

【讨论】:

    【解决方案2】:

    Google-resumable-media 可用于从 GCS 通过块下载文件,smart_open 可用于将它们上传到 S3。这样您就不需要将整个文件下载到内存中。还有一个类似的问题可以解决这个问题Can you upload to S3 using a stream rather than a local file?

    【讨论】:

      猜你喜欢
      • 2021-07-01
      • 2017-01-12
      • 1970-01-01
      • 1970-01-01
      • 2016-08-22
      • 1970-01-01
      • 2021-11-22
      • 2014-09-18
      • 2018-12-31
      相关资源
      最近更新 更多