【问题标题】:Install Spark on an existing Hadoop cluster在现有的 Hadoop 集群上安装 Spark
【发布时间】:2016-07-08 14:25:52
【问题描述】:

我不是系统管理员,但我可能需要执行一些管理任务,因此需要一些帮助。

我们有一个(远程)Hadoop 集群,人们通常在集群上运行 map-reduce 作业。

我打算在集群上安装 Apache Spark,以便可以使用集群中的所有机器。这应该是可能的,我从http://spark.apache.org/docs/latest/spark-standalone.html 中读到“您可以在现有的 Hadoop 集群旁边运行 Spark,只需在同一台机器上将其作为单独的服务启动......”

如果你以前做过,请给我详细的步骤,以便创建 Spark 集群。

【问题讨论】:

    标签: linux hadoop apache-spark


    【解决方案1】:

    如果您的集群上已经安装了 Hadoop,并且想在 YARN 上运行 spark,这非常简单:

    第 1 步: 找到 YARN 主节点(即运行资源管理器的节点)。以下步骤仅在主节点上执行。

    第 2 步:Download Spark tgz 包并将其提取到某个位置。

    第三步:定义这些环境变量,例如.bashrc

    # Spark variables
    export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
    export SPARK_HOME=<extracted_spark_package>
    export PATH=$PATH:$SPARK_HOME/bin
    

    第 4 步: 使用 --master 选项运行您的 spark 作业到 yarn-clientyarn-master

    spark-submit \
    --master yarn-client \
    --class org.apache.spark.examples.JavaSparkPi \
    $SPARK_HOME/lib/spark-examples-1.5.1-hadoop2.6.0.jar \
    100
    

    此特定示例使用 Spark 安装附带的预编译示例作业。

    你可以阅读this blog post我写的关于在集群上安装Hadoop和Spark的更多细节。

    您可以阅读下面的文章,了解如何在 Java 中编译和运行您自己的 Spark 作业。如果你想用 Python 或 Scala 编写作业,使用 IPython 或 Zeppelin 之类的笔记本很方便。阅读更多关于如何将它们与您的 Hadoop-Spark 集群一起使用的信息here

    【讨论】:

      猜你喜欢
      • 2014-08-28
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2017-07-10
      • 1970-01-01
      • 2016-02-10
      相关资源
      最近更新 更多