【问题标题】:python gzip file in memory and upload to s3内存中的python gzip文件并上传到s3
【发布时间】:2017-05-22 16:26:42
【问题描述】:

我正在使用 python 2.7...

我正在尝试对两个日志文件进行分类,使用 sed 从特定日期获取数据。需要压缩文件并上传到s3而不在系统上制作任何临时文件,

sed_command = "sed -n '/{}/,/{}/p'".format(last_date, last_date)

流程:

  1. 分类两个文件。

示例:cat file1 file2

  1. 在内存中运行 sed 操作。
  2. 使用 zip 或 gzip 将结果压缩到内存中。
  3. 将内存中的压缩文件上传到s3。

我已经成功地在系统上创建了临时文件,并在上传到 s3 完成后将其删除。在不创建任何临时文件的情况下,我无法找到一个可行的解决方案来让它即时运行。

【问题讨论】:

  • 如果您在 EC2 实例上,因为您已经在 shell 中,如何将输出写入 tmpfs 文件系统中的文件,例如 /run。然后它会在内存中和在 python 中一样。

标签: python sed gzip boto stringio


【解决方案1】:

答案有点晚,但我最近发布了一个 package,它可以通过 pypi 安装:

    pip install aws-logging-handlers

你可以在git找到使用文档

【讨论】:

    【解决方案2】:

    这里是它的要点:

    conn = boto.s3.connection.S3Connection(aws_key, secret_key)
    bucket = conn.get_bucket(bucket_name, validate=True)
    buffer = cStringIO.StringIO()
    writer = gzip.GzipFile(None, 'wb', 6, buffer)
    writer.write(sys.stdin.read())
    writer.close()
    buffer.seek(0)
    boto.s3.key.Key(bucket, key_path).set_contents_from_file(buffer)
    buffer.close()
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2018-08-25
      • 2012-09-18
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2011-12-20
      • 1970-01-01
      • 2020-12-24
      相关资源
      最近更新 更多