【问题标题】:Azure Spark SQL vs U-SQLAzure Spark SQL 与 U-SQL
【发布时间】:2016-02-23 10:34:39
【问题描述】:

我有很多数据文件最终会定期推送并存储在 Azure 存储/数据湖上。我想提供对这些数据进行分析的能力,但后来我发现在 Azure 上有两种方法:

  1. U-SQL / Azure Data Lake 查询(可视化???)
  2. 在 Azure 和 Zeppelin 上使用 Spark 生成 SQL

有人能建议我什么时候使用这种方法吗?在我看来,两者都可以做类似的工作。

【问题讨论】:

    标签: azure apache-spark-sql cortana-intelligence azure-data-lake u-sql


    【解决方案1】:

    您可以将 U-SQL 视为 Microsoft 的 Spark SQL 版本,您可以在其中编写 SQL Server 样式的 SQL 并使用 C# 中的用户定义函数进行扩展。在使用 Spark 时,您可以使用 Semi MySQL 风格的 SQL 编写并使用 Scala 或 Python 对其进行扩展。

    如果您熟悉 Scala 或 Python,那么选择 HDI​​nsight 可能是最佳选择。 Spark 附带 GraphX 和 MLLib,目前在 Data Lake Analytics 中没有类似物。此外,如果您需要在 Azure 之外运行的东西,那么 SparkSQL 是您唯一的选择。

    另一个需要考虑的重要方面是定价。 Data Lake Analytics 只在查询执行时花钱,但只要集群在运行,HDInsight 就会花钱。根据数据的大小和查询的复杂性,Data Lake Analytics 可能会更便宜,因为在配置时不会向您收费。

    【讨论】:

    • 除了@wm_eddie 的另一个需要考虑的方面是,今天,U-SQL 仅可用于批处理工作负载,而 SparkSQL 通过笔记本提供交互式体验。在我撰写此评论时需要注意的一点是,HDInsight 中的 Spark 尚未与 ADLS 一起使用(请参阅 stackoverflow.com/a/35569240/1318169)。
    • Spark/PySpark 现在在 HDInsight 上受支持。在与 ADLA 合作几个月 (~6) 和与 HDInsight 合作几个月后,这真的归结为 :: 平台用户和平台支持的技能;需要持久与按需集群;以及您需要处理的数据的类型/大小。我一直发现分析师在 U-SQL 上的使用速度更快,因为他们已经了解 ANSI SQL,但数据工程师倾向于使用 Spark。此外,U-SQL 需要干净/结构化的数据。 HDInsight 也具有更好的 PowerBI 集成。附言。我会使用 Jupyter 笔记本“但是”纱线配置很关键
    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2022-08-19
    • 1970-01-01
    • 1970-01-01
    • 2016-12-13
    • 2017-07-26
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多