Azure Spark SQL 与 U-SQL答案

【问题标题】：Azure Spark SQL vs U-SQLAzure Spark SQL 与 U-SQL
【发布时间】：2016-02-23 10:34:39
【问题描述】：

我有很多数据文件最终会定期推送并存储在 Azure 存储/数据湖上。我想提供对这些数据进行分析的能力，但后来我发现在 Azure 上有两种方法：

U-SQL / Azure Data Lake 查询（可视化？？？）
在 Azure 和 Zeppelin 上使用 Spark 生成 SQL

有人能建议我什么时候使用这种方法吗？在我看来，两者都可以做类似的工作。

【问题讨论】：

标签： azure apache-spark-sql cortana-intelligence azure-data-lake u-sql

【解决方案1】：

您可以将 U-SQL 视为 Microsoft 的 Spark SQL 版本，您可以在其中编写 SQL Server 样式的 SQL 并使用 C# 中的用户定义函数进行扩展。在使用 Spark 时，您可以使用 Semi MySQL 风格的 SQL 编写并使用 Scala 或 Python 对其进行扩展。

如果您熟悉 Scala 或 Python，那么选择 HDInsight 可能是最佳选择。 Spark 附带 GraphX 和 MLLib，目前在 Data Lake Analytics 中没有类似物。此外，如果您需要在 Azure 之外运行的东西，那么 SparkSQL 是您唯一的选择。

另一个需要考虑的重要方面是定价。 Data Lake Analytics 只在查询执行时花钱，但只要集群在运行，HDInsight 就会花钱。根据数据的大小和查询的复杂性，Data Lake Analytics 可能会更便宜，因为在配置时不会向您收费。

【讨论】：

除了@wm_eddie 的另一个需要考虑的方面是，今天，U-SQL 仅可用于批处理工作负载，而 SparkSQL 通过笔记本提供交互式体验。在我撰写此评论时需要注意的一点是，HDInsight 中的 Spark 尚未与 ADLS 一起使用（请参阅 stackoverflow.com/a/35569240/1318169）。
Spark/PySpark 现在在 HDInsight 上受支持。在与 ADLA 合作几个月 (~6) 和与 HDInsight 合作几个月后，这真的归结为 :: 平台用户和平台支持的技能；需要持久与按需集群；以及您需要处理的数据的类型/大小。我一直发现分析师在 U-SQL 上的使用速度更快，因为他们已经了解 ANSI SQL，但数据工程师倾向于使用 Spark。此外，U-SQL 需要干净/结构化的数据。 HDInsight 也具有更好的 PowerBI 集成。附言。我会使用 Jupyter 笔记本“但是”纱线配置很关键