【问题标题】:Consuming files from external network at scale in Azure data pipeline在 Azure 数据管道中大规模使用来自外部网络的文件
【发布时间】:2019-12-18 19:43:19
【问题描述】:

大规模使用来自外部网络的文件的最佳方式是什么?此处的目标是使用 Data Factory、ADLS 和 Databricks 在 Azure 中构建数据管道,这些管道可以扩展以实现几乎实时的分析用途。

【问题讨论】:

  • 我建议您查找用于构建现代数据仓库的 Microsoft 参考架构图。这个问题对 SO 来说太笼统了。

标签: architecture analytics azure-data-factory azure-data-lake azure-databricks


【解决方案1】:

据我所知,您可以在 ADF 管道中使用 Databricks Notebook Activity:https://docs.microsoft.com/en-us/azure/data-factory/transform-data-using-databricks-notebook

然后你可以在databricks集群中配置min workers和max workers。请看How autoscaling behaviors:

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2021-07-26
    相关资源
    最近更新 更多