【发布时间】:2017-09-16 05:10:02
【问题描述】:
我刚刚构建了支持 Hive 的 Spark 2,并将其部署到使用 Hortonworks 2.3.4 的集群中。但是我发现这个 Spark 2.0.3 比 HDP 2.3 附带的标准 spark 1.5.3 慢
当我检查explain 时,我的 Spark 2.0.3 似乎没有使用钨。我是否需要创建特殊版本才能启用 Tungsten?
Spark 1.5.3 解释
== Physical Plan ==
TungstenAggregate(key=[id#2], functions=[], output=[id#2])
TungstenExchange hashpartitioning(id#2)
TungstenAggregate(key=[id#2], functions=[], output=[id#2])
HiveTableScan [id#2], (MetastoreRelation default, testing, None)
火花 2.0.3
== Physical Plan ==
*HashAggregate(keys=[id#2481], functions=[])
+- Exchange hashpartitioning(id#2481, 72)
+- *HashAggregate(keys=[id#2481], functions=[])
+- HiveTableScan [id#2481], MetastoreRelation default, testing
【问题讨论】:
-
"但是我发现这个 Spark 2.0.3 比 HDP 2.3 附带的标准 spark 1.5.3 慢" 你是怎么找到的?
explain是您用来检查 Tungsten 是否使用/启用的唯一方法吗? -
如果没有任何关于你在做什么的信息,几乎不可能提供帮助。
标签: apache-spark pyspark apache-spark-sql apache-spark-2.0