【发布时间】:2016-03-08 14:26:16
【问题描述】:
我是第一次使用 spark。我在具有 10 个节点的集群上的 Hadoop 2.7 上设置了 spark。在我的主节点上,以下是正在运行的进程:
hduser@hadoop-master-mp:~$ jps
20102 ResourceManager
19736 DataNode
20264 NodeManager
24762 Master
19551 NameNode
24911 Worker
25423 Jps
现在,我想编写 Spark Sql 来对 1 GB 的文件进行某种计算,该文件已经存在于 HDFS 中。
如果我在我的主节点上进入 spark shell:
spark-shell
并编写以下查询,它会在我的主节点上运行,还是将所有 10 个节点用作工作节点?
scala> sqlContext.sql("CREATE TABLE sample_07 (code string,description string,total_emp int,salary int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TextFile")
如果没有,我必须怎么做才能让我的 Spark Sql 使用完整的集群?
【问题讨论】:
-
取决于您的 Spark 环境的设置方式。
-
嗨@morfious902002:我使用下面的链接进行设置。 quora.com/How-do-I-install-Apache-Spark-on-Yarn-Cluster
标签: apache-spark apache-spark-sql