如何在 HortonWorks HDP 2.2 上安装 Apache Spark（使用 Ambari 构建）答案

【问题标题】：How to install Apache Spark on HortonWorks HDP 2.2 (built using Ambari)如何在 HortonWorks HDP 2.2 上安装 Apache Spark（使用 Ambari 构建）
【发布时间】：2023-04-01 02:15:01
【问题描述】：

我使用 Ambari 成功构建了 HortonWorks HDP 2.2 的 5 节点集群。

但是我在已安装的服务列表中没有看到 Apache Spark。

我做了一些研究，发现 Ambari 没有安装某些组件，如 hue 等（Spark 不在该列表中，但我猜它没有安装）。

如何在我的 5 节点 HDP 2.2 上手动安装 Apache spark？

或者我应该删除我的集群并在不使用 Ambari 的情况下执行全新安装？

【问题讨论】：

标签： hortonworks-data-platform ambari

【解决方案1】：

Hortonworks 对 Spark 的支持即将到来，但尚未完全完成（details 和 blog）。

有关如何将 Spark 与 HDP 集成的说明，请参见 here。

【讨论】：

哦..我以为HDP 2.2已经集成了spark。这也显示在 HDP 2.2 网站的此图中。 hortonworks.com/wp-content/uploads/2014/12/hdp2.2-1024x428.png
好点。它应该可用hortonworks.com/blog/announcing-hdp-2-2
@KnowsNotMuch，Ambari 2.0 增加了对 Spark 的支持。请查看：issues.apache.org/jira/secure/…

【解决方案2】：

您可以为 Spark 构建自己的 Ambari Stack。我最近就是这样做的，但我无法分享该代码:(

我能做的就是分享一个关于如何为 Ambari 做任何堆栈的教程，包括 Spark。 Spark 有许多有趣的问题需要解决，本教程未涵盖这些问题。无论如何希望它有所帮助。 http://bit.ly/1HDBgS6

这里还有来自 Ambari 人的指南：https://cwiki.apache.org/confluence/pages/viewpage.action?pageId=38571133。

【讨论】：

【解决方案3】：

1) Ambari 1.7x 不为 HDP 2.2 堆栈安装 Accumulo、Hue、Ranger 或 Solr 服务。要安装 Accumulo、Hue、Knox、Ranger 和 Solr 服务，请安装手动 HDP。

2) YARN 上的 Apache Spark 1.2.0 和 HDP 2.2：here。

3) Spark and Hadoop: Working Together：

独立部署：通过独立部署，可以在 Hadoop 集群中的所有或部分机器上静态分配资源，并与 Hadoop MR 并行运行 Spark。然后，用户可以在她的 HDFS 数据上运行任意 Spark 作业。它的简单性使其成为许多 Hadoop 1.x 用户的部署选择。

Hadoop Yarn 部署：已经部署或计划部署 Hadoop Yarn 的 Hadoop 用户可以简单地在 YARN 上运行 Spark，无需任何预安装或管理访问权限。这使用户可以轻松地将 Spark 集成到他们的 Hadoop 堆栈中，并充分利用 Spark 以及在 Spark 之上运行的其他组件的全部功能。

MapReduce 中的 Spark： 对于尚未运行 YARN 的 Hadoop 用户，除了独立部署之外，另一种选择是使用 SIMR 在 MapReduce 中启动 Spark 作业。使用 SIMR，用户可以在下载后几分钟内开始试用 Spark 并使用它的 shell！这极大地降低了部署的障碍，几乎每个人都可以使用 Spark。

【讨论】：