【问题标题】:Azure/Python - download files quickly from storageAzure/Python - 从存储中快速下载文件
【发布时间】:2021-01-26 09:09:00
【问题描述】:

我的 Azure webapp 需要从 blob 存储目录下载 1000 多个非常小的文件并进行处理。

如果我列出它们,然后逐个下载它们,需要很长时间......有没有快速的方法?想一起下载吗?

PS:我使用以下代码:

from azure.storage.blob import ContainerClient, BlobClient

blob_list = #... list all files in a blob storage directory

for blob in blob_list:
    blob_client = BlobClient.from_connection_string(connection_string, container_name, blob)
    downloader = blob_client.download_blob(0)
    blob = pickle.loads(downloader.readall())

【问题讨论】:

    标签: azure azure-blob-storage azure-batch


    【解决方案1】:

    我还要指出,由于您使用的是azure-batch,因此您可以在您的 Linux 虚拟机中使用 blob 挂载配置。因此,我们的想法是将驱动器安装到您的虚拟机上,从而节省所有下载时间,并且您的驱动器已连接到虚拟机。

    谢谢,希望对您有所帮助。

    【讨论】:

      【解决方案2】:

      我使用 Azure databricks 解决了类似的问题。您可以轻松地将 Azure 存储帐户挂载到数据块(即 ADLS Gen2)中,然后处理本地文件等存储文件。即使不下载文件,您也可以复制文件或直接进行处理/转换。
      您可以在此 LINK
      中找到数据块安装步骤 在 databricks 中,您还可以使用 dbutils 函数让操作系统在安装 ADLS 后访问您的文件。
      我希望这种方法能有所帮助。

      【讨论】:

        猜你喜欢
        • 2022-11-03
        • 2023-04-10
        • 2021-04-17
        • 2021-12-08
        • 2021-05-27
        • 2021-06-17
        • 2020-11-09
        相关资源
        最近更新 更多