【问题标题】:Can Azure Data Factory read data from Delta Lake format?Azure 数据工厂可以读取 Delta Lake 格式的数据吗?
【发布时间】:2020-04-21 20:37:06
【问题描述】:

我们能够通过将增量文件源指定为 ADF 中的 parquet 数据集来读取文件。尽管这会读取 delta 文件,但它最终会读取 delta 文件中数据的所有版本/快照,而不是专门获取最新版本的 delta 数据。

这里有一个类似的问题-Is it possible to connect to databricks deltalake tables from adf

但是,我希望从 ADLS Gen2 位置读取增量文件。感谢您对此的任何指导。

【问题讨论】:

    标签: azure-data-factory-2 delta-lake


    【解决方案1】:

    我不认为你现在可以像从 Parquet 文件中读取那样轻松地做到这一点,因为 Delta Lake 文件基本上是事务日志文件 + Parquet 格式的快照。除非您每次从 Delta Lake 目录读取之前都 VACUUM,否则您最终会像观察到的那样准备好快照数据。

    Delta Lake 文件在 Databricks 之外不能很好地播放。

    在我们的数据管道中,我们通常有一个 Databricks 笔记本,可将数据从 Delta Lake 格式导出到临时位置的常规 Parquet 格式。我们让 ADF 读取 Parquet 文件并在完成后进行清理。根据您的数据大小和使用方式,这可能适合您,也可能不适合您。

    【讨论】:

      【解决方案2】:

      时间已经过去,现在 ADF Delta 对 Data Flow 的支持处于预览阶段……希望它很快就会成为 ADF 原生。 https://docs.microsoft.com/en-us/azure/data-factory/format-delta

      【讨论】:

        猜你喜欢
        • 1970-01-01
        • 2022-10-15
        • 2020-08-21
        • 2019-06-08
        • 2021-12-04
        • 1970-01-01
        • 1970-01-01
        • 2020-07-18
        • 1970-01-01
        相关资源
        最近更新 更多