【发布时间】:2018-06-18 06:15:45
【问题描述】:
我正在尝试将 .tar 文件从 FTP 复制并解压缩到 Azure Data Lake Store。 .tar 文件包含 HTML 文件。在复制活动中,在数据集上,我选择压缩类型 GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义活动的情况下执行此类操作?
【问题讨论】:
标签: azure azure-data-factory azure-data-factory-2
我正在尝试将 .tar 文件从 FTP 复制并解压缩到 Azure Data Lake Store。 .tar 文件包含 HTML 文件。在复制活动中,在数据集上,我选择压缩类型 GZipDeflate,但我想知道我需要使用什么文件格式?是否支持在没有自定义活动的情况下执行此类操作?
【问题讨论】:
标签: azure azure-data-factory azure-data-factory-2
很遗憾,数据工厂不支持解压缩 .tar 文件。支持的 ftp 类型为 GZip、Deflate、BZip2 和 ZipDeflate。 (如此处所示:https://docs.microsoft.com/en-us/azure/data-factory/supported-file-formats-and-compression-codecs#compression-support)。
一种解决方案可能是将文件保存为一种受支持的格式,或者尝试此处解释的自定义活动,尽管我不确定它是用于数据工厂 v1 还是 v2:Import .tar file using Azure Data Factory
希望这有帮助!
【讨论】:
确实没有办法仅使用 ADF 或 ADL Analytics 解压缩 .tar 文件,但是可以选择从 .tar 文件中的每个文件中获取内容并保存为 U-SQL 中的输出。 我有一个场景,我需要从 .tar 文件中的 html 文件中获取内容,所以我刚刚创建了 html 提取器,它将获取 .tar 文件中每个 html 文件的流内容并保存在 U-SQL 输出变量中。 也许这可以帮助有类似用例的人。 我使用 SharpCompress.dll 在 c# 中提取和循环 .tar 文件。
【讨论】: