【问题标题】:copy and decompress .tar file with Azure Data Factory使用 Azure 数据工厂复制和解压缩 .tar 文件
【发布时间】:2018-06-18 06:15:45
【问题描述】:

我正在尝试将 .tar 文件从 FTP 复制并解压缩到 Azure Data Lake Store。 .tar 文件包含 HTML 文件。在复制活动中,在数据集上,我选择压缩类型 GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义活动的情况下执行此类操作?

【问题讨论】:

    标签: azure azure-data-factory azure-data-factory-2


    【解决方案1】:

    很遗憾,数据工厂不支持解压缩 .tar 文件。支持的 ftp 类型为 GZip、Deflate、BZip2 和 ZipDeflate。 (如此处所示:https://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support)。

    一种解决方案可能是将文件保存为一种受支持的格式,或者尝试此处解释的自定义活动,尽管我不确定它是用于数据工厂 v1 还是 v2:Import .tar file using Azure Data Factory

    希望这有帮助!

    【讨论】:

    • 谢谢马丁,我想。 :)
    【解决方案2】:

    确实没有办法仅使用 ADF 或 ADL Analytics 解压缩 .tar 文件,但是可以选择从 .tar 文件中的每个文件中获取内容并保存为 U-SQL 中的输出。 我有一个场景,我需要从 .tar 文件中的 html 文件中获取内容,所以我刚刚创建了 html 提取器,它将获取 .tar 文件中每个 html 文件的流内容并保存在 U-SQL 输出变量中。 也许这可以帮助有类似用例的人。 我使用 SharpCompress.dll 在 c# 中提取和循环 .tar 文件。

    【讨论】:

    • 拥有数据湖存储并不意味着您可以使用 u-sql 进行数据湖分析,您从未在原始问题上指出这一点,所以我什至没有考虑过。
    • 是的,我的主要问题是 ADF 可能。这只是小更新,也许可以帮助某人。对不起马丁。
    猜你喜欢
    • 2020-06-27
    • 1970-01-01
    • 2022-11-11
    • 2021-01-16
    • 2019-04-30
    • 1970-01-01
    • 1970-01-01
    • 2018-09-26
    • 2019-12-07
    相关资源
    最近更新 更多