【问题标题】:Copy and Extracting Zipped XML files from HTTP Link Source to Azure Blob Storage using Azure Data Factory使用 Azure 数据工厂将压缩的 XML 文件从 HTTP 链接源复制并提取到 Azure Blob 存储
【发布时间】:2021-04-14 04:01:34
【问题描述】:

我正在尝试建立 Azure 数据工厂复制数据管道。源是一个开放的 HTTP 链接源(Url 参考:https://clinicaltrials.gov/AllPublicXML.zip)。所以基本上源包含一个包含许多 XML 文件的压缩文件夹。我想使用 Azure 数据工厂将提取的 XML 文件解压缩并保存在 Azure Blob 存储中。我试图遵循这里提到的配置:How to decompress a zip file in Azure Data Factory v2 但我收到以下错误:

ErrorCode=UserErrorSourceNotSeekable,'Type=Microsoft.DataTransfer.Common.Shared.HybridDeliveryException,Message=Your HttpServer source can't support random read which is requied by current copy activity setting, please create two copy activities to work around it: the first copy activity binary copy your HttpServer source to a staging file store(like Azure Blob, Azure Data Lake, File, etc.), second copy activity copy from the staged file store to your destination with current settings.,Source=Microsoft.DataTransfer.ClientLibrary,'

不完全确定出了什么问题,但如果有人可以指导我完成该过程,那将非常有帮助。

【问题讨论】:

    标签: azure azure-data-factory azure-data-factory-2 azure-data-lake data-pipeline


    【解决方案1】:

    我将其分解为两个复制数据活动,以便将 zip 文件的下载(相当大)和解包分开。您可以尝试一步完成,但我认为您会遇到超时问题。使用我的方法,您还可以获得原始 zip 文件的副本,这将有助于审计跟踪和调试目的。

    我尝试以方框和线条格式记录我的 ADF 模式,其中显示了每个组件的关键细节。所以这里有两个复制活动,以及支持的链接服务和数据集 - 尝试遵循这个,让我知道你的进展情况:

    注意 ADF 需要很长时间才能解压缩 .xml 文件,因为其中有很多。我在 Azure 存储资源管理器中显示的结果:

    【讨论】:

      猜你喜欢
      • 2019-04-20
      • 2019-04-09
      • 2019-01-26
      • 2021-10-21
      • 1970-01-01
      • 2016-08-30
      • 1970-01-01
      • 2018-09-20
      • 2019-07-18
      相关资源
      最近更新 更多