【发布时间】:2020-09-22 10:33:38
【问题描述】:
我在 S3 中有大量文件(约 150gb 的文本文件),文件夹结构相当简单。有许多文件夹,每个文件夹中有几个 Gb 的文件。我想使用 boto3 迭代 s3 的内容并下载每个文件,在 python 中对该文件进行操作(不需要重新上传/更改 s3 中的原始文件),然后继续下一个文件。困难的部分是存储桶中还有其他我想忽略的对象,例如存在的一些文件夹和 zip 文件。
我很幸运地列出了 s3 的内容,但我不知道如何在 python 中访问文件的名称
for object in s3.Bucket('name_of_bucket').objects.all():
print(object)
打印对象会给出文件的名称,但我不知道如何在 python 中访问对象的内容。该对象是一个boto3.resources.factory.s3.ObjectSummary 对象。
我正在寻求有关如何使用此方法或完全不同的方法的帮助。
提前谢谢你
【问题讨论】:
-
s3.download_object(object.fpath) 或沿着这些线的东西
-
谢谢,但没有解决上述问题
-
你考虑过S3 batch。似乎很适合您的用例。
标签: python amazon-web-services amazon-s3 boto3