用于处理的 Azure Databricks 与 ADLA答案

【问题标题】：Azure Databricks vs ADLA for processing用于处理的 Azure Databricks 与 ADLA
【发布时间】：2018-09-14 19:43:09
【问题描述】：

目前，我的所有数据文件都在 Azure Data Lake Store 中。我需要处理这些主要是 csv 格式的文件。该处理将在这些文件上运行作业以提取各种信息，例如某些日期期间的数据或与场景相关的某些事件或从多个表/文件中添加数据。这些作业每天通过数据工厂（v1 或 v2）中的 u-sql 作业运行，然后发送到 powerBI 进行可视化。

使用 ADLA 进行所有这些处理，我觉得需要花费大量时间来处理并且看起来非常昂贵。我收到了一个建议，我应该将 Azure Databricks 用于上述过程。有人可以帮助我解决两者之间的差异以及转变是否有帮助吗？我可以将我所有的 U-sql 作业修改为 Databricks 笔记本格式吗？

【问题讨论】：

标签： azure azure-data-lake u-sql databricks

【解决方案1】：

免责声明：我为 Databricks 工作。

如果不知道您使用了多少数据、它是什么类型的数据或您的处理时间有多长，就很难给出优缺点或建议。如果您想将 Azure 的 Data Lake Analytics 成本与 Databricks 进行比较，只能通过与销售团队成员交谈来准确地完成。

请记住，ADLA 基于 YARN 集群管理器（来自 Hadoop）并且仅运行 U-SQL 批处理工作负载。来自blue granite的描述：

ADLA is focused on batch processing, which is great for many Big Data workloads. 
Some example uses for ADLA include, but are not limited to:

- Prepping large amounts of data for insertion into a Data Warehouse
- Processing scraped web data for science and analysis
- Churning through text, and quickly tokenizing to enable context and sentiment analysis
- Using image processing intelligence to quickly process unstructured image data
- Replacing long-running monthly batch processing with shorter running distributed processes

Databricks 涵盖批处理和流处理，并处理 ETL（数据工程师）和数据科学（机器学习、深度学习）工作负载。通常，这就是公司使用 Databricks 的原因。

更快、更可靠且扩展性更好的 Apache Spark™。 Databricks 创建了 Apache Spark™（Databricks 运行时）的定制版本，该版本经过优化，处理速度比普通 Apache Spark™ 快 100 倍。
消除设置时间或成本导致的基础设施瓶颈。 Databricks 在几分钟内创建包含所有必要组件的 Apache Spark™ 集群。 Apache Spark™、Python、Scala 以及您需要的所有机器学习和深度学习库都是在不涉及 Ops/DevOps 的情况下设置的。集群可以自动扩展以仅在需要时使用额外资源，未使用的集群将在设定的时间后自动终止，以避免产生不必要的成本。
适用于数据工程师和数据科学家的统一分析平台。数据工程师和数据科学团队完全独立工作。存在沟通不畅、对彼此的代码和工作缺乏可见性，以及开发管道效率低下（获取数据、清理数据并准备分析）。 Databricks 提供支持多种语言（SQL、R、Python、Scala 等）的协作笔记本，以便这两个小组可以一起工作
消除流用例的复杂性。 Databricks 有一个名为 Delta 的新产品，它允许您保持数据湖的规模，而不会遇到在处理大量流式无模式数据时经常出现的可靠性、性能和数据不一致问题，而其他人正在尝试读取从中。 Delta 在 Apache Spark™ 运行时之上提供性能提升，并允许对数据湖中的数据进行更新插入（通常极难做到）。
企业安全、支持以及 Spark 专业知识。使用第 3 方验证的安全性进行加密、访问控制等。 75% 的 Apache Spark™ 代码库是由 Databricks 贡献的，因此提供的知识和专业知识水平比您在其他任何地方都好。这些专业知识可以帮助优化查询、调整集群、建议如何设置数据管道等。

还有比这些更多的原因，但这些是最常见的一些。如果您认为对您的情况有所帮助，您应该在网站上进行试用。

【讨论】：

很好的细节..你能评论一下成本比较吗。
不确定 Azure 如何为其产品定价。 Databricks 在其网站上提供了定价。您可以联系销售团队以帮助衡量您的预期使用情况，并获得报价。
根据 azure 定价页面（如下），流分析中流式传输单元的成本为每小时 0.11 美元，数据工程标准层单元的成本为每小时 0.15 美元包括“托管、磁盘、blob 存储、公共 IP 地址”。用于数据块 (azure.microsoft.com/en-us/pricing/details/databricks) & (azure.microsoft.com/en-us/pricing/details/stream-analytics)