【问题标题】:Add meta data to a data lake file using ADF使用 ADF 将元数据添加到数据湖文件
【发布时间】:2021-03-16 17:15:44
【问题描述】:

Azure 数据工厂 v2 具有获取元数据活动,可以读取存储在 ADLS 中的文件的元数据。它可以在移动/复制文件时保留文件上的元数据。 但是有没有办法使用 ADF 在湖文件上添加或修改元数据?

【问题讨论】:

  • 您要修改哪种类型的元数据?

标签: azure-data-factory-2 azure-data-lake-gen2


【解决方案1】:

是的,有办法。

您可以使用 Azure Blob 存储 API:

set-blob-metadata method for Blob Storage

数据湖只是底层 Blob 存储引擎的扩展

因此,您可以在管道中连接一个网络活动并调用指向您的 blob 的其余 api,它会为您设置元数据。

【讨论】:

    【解决方案2】:

    上传文件后,元数据由 Data Lake(Storage) 创建。

    这些属性无法更改,除非您将其删除并重新上传到 Data Lake(或 Stroage)。其他一些人就如何在堆栈溢出中更改此元数据提出了相同的问题。您可以通过搜索轻松找到这些。

    但如果在Data Lake中修改文件内容,如增删列,sizecolumnCountstructure是可以更改的。

    所以对于“有没有办法使用 ADF 在湖文件上添加或修改元数据?”这个问题,答案是否定的,没有。

    HTP。

    【讨论】:

    • 我不同意。我们可以使用诸如存储资源管理器之类的东西来更改 blob 上的元数据,即使它们已被创建而无需删除。
    • @DhruvJoshi 我能理解你。当然,您可以在存储资源管理器中添加元数据。但是 Get Metadata 的输出(元数据)与 blob 元数据不同。它们是不同的东西。
    • 数据工厂更像是获取文件的属性。我们无法在数据工厂中更改它。您可以测试在存储资源管理器中添加一些元数据,然后使用获取元数据来获取它们。
    猜你喜欢
    • 2021-06-22
    • 2020-06-15
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-08-24
    • 2021-11-29
    • 2012-04-28
    • 1970-01-01
    相关资源
    最近更新 更多