【问题标题】:Get the full path of a file in azure synapse studio using pyspark使用 pyspark 在 azure synapse studio 中获取文件的完整路径
【发布时间】:2021-12-03 16:13:50
【问题描述】:

我需要从我的存储帐户处理一个 pdf 文件。在本地环境中,我们用来获取文件'C:\path\file1.pdf'的路径。但是如何在 azure synapse studio pyspark(python) 中访问 Azure 存储帐户中的数据?

【问题讨论】:

  • 请提供足够的代码,以便其他人更好地理解或重现问题。

标签: azure azure-blob-storage azure-synapse


【解决方案1】:

手动方法:如果要手动获取存储帐户的完整路径。

  • 对于 ADLS GEN2 帐户:'abfss://<FileSystemName>@<StorageName>.dfs.core.windows.net/FilePath/FileName/'
  • 对于 Azure Blob 帐户:'wasbs://<ContainerName>@<StorageName>.blob.core.windows.net/FilePath/FileName/'

自动方法:以下是使用 Pyspark 在 Azure Synapse Studio 中获取文件完整路径的步骤。

您可以创建链接服务以连接到外部数据 (Azure Blob Storage/Gen1/Gen2)。

第 1 步:您可以分析工作区默认 ADLS Gen2 帐户中的数据,也可以通过“管理”将 ADLS Gen2 或 Blob 存储帐户链接到工作区 > "链接服务" > ""

第 2 步:创建连接后,该连接的基础数据将可用于数据中心中的分析或集成中心中的管道活动。

Step3:现在您已经成功连接 Azure Data Lake Gen2,无需通过任何路径。

参考:Azure Synapse Analytics - Analyze data in a storage account

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2012-10-19
    • 1970-01-01
    • 2010-11-10
    • 2019-02-09
    相关资源
    最近更新 更多