【问题标题】:Setting UP Spark on existing EC2 cluster在现有 EC2 集群上设置 Spark
【发布时间】:2016-01-19 18:14:30
【问题描述】:

我必须访问 Amazon S3 中存储桶中的一些大文件并对其进行处理。为此,我计划使用 Apache Spark。我有这个学习项目的 2 个 EC2 实例。这些不用于小型 cron,所以我可以使用它们来安装和运行 Spark 吗?如果是这样,如何在现有的EC2盒子上安装Spark,这样我就可以做到一主一从?

【问题讨论】:

  • 你运行的是什么风格的 linux?此链接详细介绍了 Ubuntu blog.prabeeshk.com/blog/2014/10/31/… 上的基本 Spark 设置
  • 谢谢,浏览了这个站点,但这并没有创建主从结构。它用于本地设置。

标签: amazon-web-services amazon-ec2 amazon-s3 apache-spark


【解决方案1】:

如果有帮助,我在一个分支上以独立模式安装了 Spark,另一个也安装了,将一个设置为 Master,另一个设置为从属。与我遵循的相同的详细说明是 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

【讨论】:

    【解决方案2】:
    【解决方案3】:

    是的,您可以轻松地创建具有 2 个 aws 实例的主从服务器,只需在两个实例上的 spark-env.sh 中设置 SPARK_MASTER_IP = instance_privateIP_1 并将 instance2 私有 IP 放入 conf 文件夹中的 slaves 文件中,这些配置在机器和机器上都是相同的其他配置也设置如内存核心等,然后你可以从 master 启动它,并确保 spark 安装在两台机器的相同位置。

    【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-12-13
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-07-02
    相关资源
    最近更新 更多