【发布时间】:2015-01-22 03:10:44
【问题描述】:
我将使用 spark-sql cli 替换 hive cli shell,并按照命令运行 spark-sql cli,(我们在 yarn Hadoop 集群上使用,hive-site.xml 已经复制到/conf)
.> 火花-sql 然后shell打开,工作正常,
然后我执行类似的查询,
./spark-sql>select devicetype, count(*) from mytable group by devicetype;
命令执行成功,结果正确。但我注意到性能很慢。
从 Spark 作业 ui http://myhost:4040,我注意到只有 1 个 Executor 标记为已使用,所以这可能是原因。
我尝试修改spark-sql脚本并在exec命令中添加-num-executors 500,但没有帮助。
所以任何人都可以帮助解释为什么?
谢谢。
【问题讨论】:
标签: apache-spark apache-spark-sql