【问题标题】:Azure Databricks vs ADLA for processing用于处理的 Azure Databricks 与 ADLA
【发布时间】:2018-09-14 19:43:09
【问题描述】:

目前,我的所有数据文件都在 Azure Data Lake Store 中。我需要处理这些主要是 csv 格式的文件。该处理将在这些文件上运行作业以提取各种信息,例如某些日期期间的数据或与场景相关的某些事件或从多个表/文件中添加数据。这些作业每天通过数据工厂(v1 或 v2)中的 u-sql 作业运行,然后发送到 powerBI 进行可视化。

使用 ADLA 进行所有这些处理,我觉得需要花费大量时间来处理并且看起来非常昂贵。我收到了一个建议,我应该将 Azure Databricks 用于上述过程。有人可以帮助我解决两者之间的差异以及转变是否有帮助吗?我可以将我所有的 U-sql 作业修改为 Databricks 笔记本格式吗?

【问题讨论】:

    标签: azure azure-data-lake u-sql databricks


    【解决方案1】:

    免责声明:我为 Databricks 工作。

    如果不知道您使用了多少数据、它是什么类型的数据或您的处理时间有多长,就很难给出优缺点或建议。如果您想将 Azure 的 Data Lake Analytics 成本与 Databricks 进行比较,只能通过与销售团队成员交谈来准确地完成。

    请记住,ADLA 基于 YARN 集群管理器(来自 Hadoop)并且仅运行 U-SQL 批处理工作负载。来自blue granite的描述:

    ADLA is focused on batch processing, which is great for many Big Data workloads. 
    Some example uses for ADLA include, but are not limited to:
    
    - Prepping large amounts of data for insertion into a Data Warehouse
    - Processing scraped web data for science and analysis
    - Churning through text, and quickly tokenizing to enable context and sentiment analysis
    - Using image processing intelligence to quickly process unstructured image data
    - Replacing long-running monthly batch processing with shorter running distributed processes
    

    Databricks 涵盖批处理和流处理,并处理 ETL(数据工程师)和数据科学(机器学习、深度学习)工作负载。通常,这就是公司使用 Databricks 的原因。

    • 更快、更可靠且扩展性更好的 Apache Spark™。 Databricks 创建了 Apache Spark™(Databricks 运行时)的定制版本,该版本经过优化,处理速度比普通 Apache Spark™ 快 100 倍。
    • 消除设置时间或成本导致的基础设施瓶颈。 Databricks 在几分钟内创建包含所有必要组件的 Apache Spark™ 集群。 Apache Spark™、Python、Scala 以及您需要的所有机器学习和深度学习库都是在不涉及 Ops/DevOps 的情况下设置的。集群可以自动扩展以仅在需要时使用额外资源,未使用的集群将在设定的时间后自动终止,以避免产生不必要的成本。
    • 适用于数据工程师和数据科学家的统一分析平台。数据工程师和数据科学团队完全独立工作。存在沟通不畅、对彼此的代码和工作缺乏可见性,以及开发管道效率低下(获取数据、清理数据并准备分析)。 Databricks 提供支持多种语言(SQL、R、Python、Scala 等)的协作笔记本,以便这两个小组可以一起工作
    • 消除流用例的复杂性。 Databricks 有一个名为 Delta 的新产品,它允许您保持数据湖的规模,而不会遇到在处理大量流式无模式数据时经常出现的可靠性、性能和数据不一致问题,而其他人正在尝试读取从中。 Delta 在 Apache Spark™ 运行时之上提供性能提升,并允许对数据湖中的数据进行更新插入(通常极难做到)。
    • 企业安全、支持以及 Spark 专业知识。使用第 3 方验证的安全性进行加密、访问控制等。 75% 的 Apache Spark™ 代码库是由 Databricks 贡献的,因此提供的知识和专业知识水平比您在其他任何地方都好。这些专业知识可以帮助优化查询、调整集群、建议如何设置数据管道等。

    还有比这些更多的原因,但这些是最常见的一些。如果您认为对您的情况有所帮助,您应该在网站上进行试用。

    【讨论】:

    • 很好的细节..你能评论一下成本比较吗。
    • 不确定 Azure 如何为其产品定价。 Databricks 在其网站上提供了定价。您可以联系销售团队以帮助衡量您的预期使用情况,并获得报价。
    • 根据 azure 定价页面(如下),流分析中流式传输单元的成本为每小时 0.11 美元,数据工程标准层单元的成本为每小时 0.15 美元包括“托管、磁盘、blob 存储、公共 IP 地址”。用于数据块 (azure.microsoft.com/en-us/pricing/details/databricks) & (azure.microsoft.com/en-us/pricing/details/stream-analytics)
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2020-09-14
    • 2021-06-14
    • 2022-08-18
    • 2022-07-04
    • 1970-01-01
    • 2022-07-27
    • 2022-08-02
    相关资源
    最近更新 更多