在现有 EC2 集群上设置 Spark答案

【问题标题】：Setting UP Spark on existing EC2 cluster在现有 EC2 集群上设置 Spark
【发布时间】：2016-01-19 18:14:30
【问题描述】：

我必须访问 Amazon S3 中存储桶中的一些大文件并对其进行处理。为此，我计划使用 Apache Spark。我有这个学习项目的 2 个 EC2 实例。这些不用于小型 cron，所以我可以使用它们来安装和运行 Spark 吗？如果是这样，如何在现有的EC2盒子上安装Spark，这样我就可以做到一主一从？

【问题讨论】：

你运行的是什么风格的 linux？此链接详细介绍了 Ubuntu blog.prabeeshk.com/blog/2014/10/31/… 上的基本 Spark 设置
谢谢，浏览了这个站点，但这并没有创建主从结构。它用于本地设置。

标签： amazon-web-services amazon-ec2 amazon-s3 apache-spark

【解决方案1】：

如果有帮助，我在一个分支上以独立模式安装了 Spark，另一个也安装了，将一个设置为 Master，另一个设置为从属。与我遵循的相同的详细说明是 https://spark.apache.org/docs/1.2.0/spark-standalone.html#installing-spark-standalone-to-a-cluster

【讨论】：

【解决方案2】：

在此处http://www.supergloo.com/fieldnotes/apache-spark-cluster-amazon-ec2-tutorial/http://www.supergloo.com/fieldnotes/apache-spark-cluster-amazon-ec2-tutorial/ 上查看有关 EC2 上的 Apache Spark 集群的教程

【讨论】：

【解决方案3】：

是的，您可以轻松地创建具有 2 个 aws 实例的主从服务器，只需在两个实例上的 spark-env.sh 中设置 SPARK_MASTER_IP = instance_privateIP_1 并将 instance2 私有 IP 放入 conf 文件夹中的 slaves 文件中，这些配置在机器和机器上都是相同的其他配置也设置如内存核心等，然后你可以从 master 启动它，并确保 spark 安装在两台机器的相同位置。

【讨论】：

您可以参考这篇文章，只需更改 aws 实例的 ip blog.knoldus.com/2015/04/14/…