【发布时间】:2018-05-28 02:11:36
【问题描述】:
- Hive on Spark 模式与 MR 模式
- Spark SQL
- 催化剂优化剂/RDD/钨
【问题讨论】:
-
你应该在 Tez 上使用 Hive 而不是 MR 模式......
标签: apache-spark hive apache-spark-sql
【问题讨论】:
标签: apache-spark hive apache-spark-sql
Hive on Spark 不同于通过 HiveContext 使用 Spark SQL 运行 Hive 查询。它不会将查询转换为 Spark 原语,而是将其转换为 MapReduce 原语并在 Spark 上执行。其主要目的是利用 Spark 执行引擎,而不影响 Hive 中的现有代码。
在内部,它将 Hive 的逻辑运算符转换为 Spark 任务,主要是 RDD 转换和操作,并且尚未使用 Dataframe(根据官方文档),因此它不使用 Tungsten 或 Catalyst Optimizer。
以下文档提到了官方文档中提供的 Hive on Spark 的所有设计注意事项 -
【讨论】: