【发布时间】:2018-05-22 11:48:26
【问题描述】:
Azure 数据湖分析和 azure databricks 都可用于批处理。谁能帮我理解什么时候选择一个而不是另一个?
【问题讨论】:
标签: azure-data-lake azure-analysis-services
Azure 数据湖分析和 azure databricks 都可用于批处理。谁能帮我理解什么时候选择一个而不是另一个?
【问题讨论】:
标签: azure-data-lake azure-analysis-services
以我的拙见,很多都归结为现有的技能组合。如果您有一个在 Spark、Java、Python、r 或 Scala 方面经验丰富的团队,那么 Databricks 是您的理想之选。另一方面,如果您的团队拥有现有的 SQL 和 c# 技能,那么他们使用 U-SQL 的学习曲线将不那么陡峭。
除此之外,还有其他问题可以消除差异:
2018 年 10 月更新: 据我所知,U-SQL 目前不支持 ADLS Gen 2,这将对其不利(很高兴得到纠正)。我会更新帖子如果以及何时添加支持。
2019 年 1 月更新: 自Spring 2018 以来,U-SQL 没有任何有意义的更新。
HTH
【讨论】:
Databricks 有更多的语言选项,允许具有不同技能的专业人员处理数据。您还可以使用 databricks 运行具有高性能内存集群的作业。
在一个项目中,我们更多地将数据湖用作存储,并通过 databricks notebook 完成所有工作(ETL、分析)。在数据湖中存储数据更便宜。
回到您的问题,如果一项复杂的批处理作业和不同类型的专业人员将处理您的数据。你可以选择 Azure Data Lake + Databricks 体系结构。否则,Azure 数据湖将满足您的需求。
看看这 2 篇文章会有所帮助。 https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/
【讨论】: