在 Hadoop 上运行 Spark

【问题标题】：Run Spark over Hadoop在 Hadoop 上运行 Spark
【发布时间】：2015-07-15 12:26:01
【问题描述】：

在我的本地机器上，我安装了 scala、spark、hadoop。我已经使用带有 maven 的 spark 完成了一个字数统计示例程序。现在我必须使用 spark 在 Hadoop 上做这些事情？我怎样才能做到这一点？？

【问题讨论】：

【解决方案1】：

Here 你可以找到关于如何在 YARN 上运行 Spark 的文档。这意味着 Spark 将使用与 Hadoop 发行版相同的资源管理器。

相反，如果您只是想让 Spark 使用通过 HDFS 存储的文件运行，那么您可以简单地以独立模式运行 Spark，并指定他必须处理的文件的 hdfs:// URL。在这种情况下，您只需将 Spark master 设置为 local 并运行您的应用程序。关于如何在独立模式下安装和提交应用程序的说明是here

【讨论】：