【发布时间】:2020-03-14 11:19:03
【问题描述】:
我有一组文件存储在 Google Cloud 存储桶中 - 100k 个文件,总计 1 TB。我需要一种方法来有效地从存储桶中下载不同的文件子集。
有一种方法可以将所需文件的列表传递给gsutil:python generate_filenames.py | gsutil -m cp -I .,但对于我的场景来说它非常慢(大约 2 MB/秒)。
另外,我注意到如果使用通配符模式 - gsutil -m cp gs://bucketname/folderpath/* . - 下载速度大约是 10 倍。我可以下载所有文件,然后删除不需要的文件,但如果文件集很小,它仍然效率低下。
有什么方法可以利用gsutil 只下载指定的文件列表,但速度仍然高于 2 MB/秒?
【问题讨论】:
标签: google-cloud-platform gsutil