如果您的集群上已经安装了 Hadoop,并且想在 YARN 上运行 spark,这非常简单:
第 1 步: 找到 YARN 主节点(即运行资源管理器的节点)。以下步骤仅在主节点上执行。
第 2 步:Download Spark tgz 包并将其提取到某个位置。
第三步:定义这些环境变量,例如.bashrc:
# Spark variables
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_HOME=<extracted_spark_package>
export PATH=$PATH:$SPARK_HOME/bin
第 4 步: 使用 --master 选项运行您的 spark 作业到 yarn-client 或 yarn-master:
spark-submit \
--master yarn-client \
--class org.apache.spark.examples.JavaSparkPi \
$SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
100
此特定示例使用 Spark 安装附带的预编译示例作业。
你可以阅读this blog post我写的关于在集群上安装Hadoop和Spark的更多细节。
您可以阅读下面的文章,了解如何在 Java 中编译和运行您自己的 Spark 作业。如果你想用 Python 或 Scala 编写作业,使用 IPython 或 Zeppelin 之类的笔记本很方便。阅读更多关于如何将它们与您的 Hadoop-Spark 集群一起使用的信息here。