【问题标题】:How do I scale Azure Data Factory Dataflow?如何缩放 Azure 数据工厂数据流?
【发布时间】:2020-04-28 12:03:41
【问题描述】:

我能够使用 ADF UI 为一个表轻松设置 SCD 类型 2 流程,但我没有看到一种简单的方法来扩展到我们拥有的 1000 个数据源。我没有看到任何允许我编写 ADF 管道/数据流并动态配置和触发它们的 Java API。没有 UI 允许从特定数据库等中选择哪些表。我查看了 Azure Datalake Gen 2、Azure Databricks 等。我在 Azure 中没有看到任何工具可以让我们替换 UI 驱动的 Data Lake 摄取过程。我建在房子里。我错过了什么吗?

附带说明一下,我们有一个旧的数据湖应用程序,它从数以千计的数据源(例如数据库、日志文件、Web 应用程序等)中提取数据,并使用 Java、Spark、 Kafka 等。我们正在评估 Azure Active Data Factory 以取代它。

【问题讨论】:

    标签: azure azure-data-factory azure-data-lake azure-data-factory-2 azure-databricks


    【解决方案1】:

    ADF 中内置了一个通用 SCD(类型 1,但您可以改装为类型 2)示例。转到新建 > 来自模板的管道 > 使用数据流进行转换 > 通用 SCD 类型 1。

    此处概述了此模式:https://techcommunity.microsoft.com/t5/azure-data-factory/create-generic-scd-pattern-in-adf-mapping-data-flows/ba-p/918519

    您还可以在管道内迭代 Foreach 的无模式表数据集,在每次迭代时调用相同的数据流。

    最后,如果您仍希望以编程方式消除数据流,在线 Azure 文档的参考部分中列出了 .NET 和 PowerShell SDK。

    【讨论】:

    • 无模式表?这不是要求,所以这还不够!是的,我注意到有 .NET 但没有 Java SDK。无论如何,似乎在 Azure 中扩展到 1000 个表并不是开箱即用的。它确实需要大量编码。
    • SQL 表类型的无模式数据集允许您通过参数化表来概括数据流。由于数据流不关心具有无模式数据集的模式,因此您可以制作通用模式。我在这里解释一下:youtube.com/watch?v=Sj15Yjwai1A
    【解决方案2】:

    您可以利用 Java 中的 REST API 来使用代码构建管道。

    https://docs.microsoft.com/en-us/azure/data-factory/quickstart-create-data-factory-rest-api

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 2022-06-23
      • 2020-11-26
      • 2020-11-30
      • 2019-09-28
      • 1970-01-01
      • 1970-01-01
      • 2020-04-14
      相关资源
      最近更新 更多