【问题标题】:How to choose between Azure data lake analytics and Azure Databricks如何在 Azure 数据湖分析和 Azure Databricks 之间进行选择
【发布时间】:2018-05-22 11:48:26
【问题描述】:

Azure 数据湖分析和 azure databricks 都可用于批处理。谁能帮我理解什么时候选择一个而不是另一个?

【问题讨论】:

    标签: azure-data-lake azure-analysis-services


    【解决方案1】:

    以我的拙见,很多都归结为现有的技能组合。如果您有一个在 Spark、Java、Python、r 或 Scala 方面经验丰富的团队,那么 Databricks 是您的理想之选。另一方面,如果您的团队拥有现有的 SQL 和 c# 技能,那么他们使用 U-SQL 的学习曲线将不那么陡峭。

    除此之外,还有其他问题可以消除差异:

    • 您需要实时交互(Databricks)还是批处理模式分析(两者)?虽然有 U-SQL 实时交互的反馈项,please vote
    • 您想要按需付费模型 (U-SQL) 还是在特定时间段后自动终止的集群 (Databricks)?
    • 您喜欢使用笔记本 (Databricks) 还是 Visual Studio / VSCode / Powershell / .net sdk (U-SQL) 方法工作?
    • 您想使用像 GraphX (Databricks) 这样的 Spark 库吗?
    • 您想要运行和扩展任何运行时 (U-SQL) 的能力吗?有关详细信息,请参阅here
    • 您需要本地开发模拟器 (U-SQL) 吗? Visual Studio 中的 U-SQL 模拟器是无缝的,也就是说,您可以在与湖相同的结构中针对本地驱动器开发代码(免费),然后只需单击 Visual Studio 中的下拉菜单即可在云端运行。虽然我认为您可以拥有本地 Spark 环境,但我不确定 Databricks 的本地(和断开连接)开发体验是什么。
    • 您是否使用 ADLS Gen 2(仅限 Databricks)?见here

    2018 年 10 月更新: 据我所知,U-SQL 目前不支持 ADLS Gen 2,这将对其不利(很高兴得到纠正)。我会更新帖子如果以及何时添加支持。

    2019 年 1 月更新: 自Spring 2018 以来,U-SQL 没有任何有意义的更新。

    HTH

    【讨论】:

    • +1 以获得详细答案。所有这些都有意义,但在架构上、性能方面或能力方面,有什么区别?
    • 优秀的答案。 @wBob 您认为 HDInsight 在哪里适合这里的组合?在什么情况下我想使用其中一种。
    • 嗨,很好的总结,如果您想投票,有一张支持 ADLS Gen 2 的用户语音票:feedback.azure.com/forums/327234-data-lake/suggestions/…
    • @wBob:您对 uSQL 和 ADLS Gen 2 有什么新的了解吗?
    • @wBob : 使用 ADLS 和 ADF Gen 有什么限制吗?
    【解决方案2】:

    Databricks 有更多的语言选项,允许具有不同技能的专业人员处理数据。您还可以使用 databricks 运行具有高性能内存集群的作业。

    在一个项目中,我们更多地将数据湖用作存储,并通过 databricks notebook 完成所有工作(ETL、分析)。在数据湖中存储数据更便宜。

    回到您的问题,如果一项复杂的批处理作业和不同类型的专业人员将处理您的数据。你可以选择 Azure Data Lake + Databricks 体系结构。否则,Azure 数据湖将满足您的需求。

    看看这 2 篇文章会有所帮助。 https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/

    【讨论】:

      猜你喜欢
      • 2016-04-23
      • 2019-04-22
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2018-03-12
      • 2022-08-21
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多