我在哪里运行 spark - 独立、Hadoop 或 Mesos答案

【问题标题】：Where do I run spark - Standalone, Hadoop or Mesos我在哪里运行 spark - 独立、Hadoop 或 Mesos
【发布时间】：2023-03-26 00:57:02
【问题描述】：

我正在学习 Spark，但如果我必须在 Hadoop/Yarn 或 Mesos 上运行 Spark，我会感到困惑。

如果我在 Hadoop/Mesos 上运行，是否有任何性能提升？

现在，我只是在一个 4 节点集群上独立运行。

有经验的用户可以在这里提供一些指导吗？

【问题讨论】：

【解决方案1】：

根据您的用例的详细信息，您可能会看到任何给定配置的性能与另一个配置相比有起有落。然而 Hadoop 和 Mesos 为您提供了性能以外的其他优势。每种情况都有很多，但例如：

Hadoop

Mesos - Mesos 比 Hadoop 更专注于特定角色，即跨机器集群管理资源。但是，它在一系列工作负载类型中执行此操作。这些可能是数据处理作业，例如 Spark、Akka 中的分布式应用程序、分布式数据库等。如果一台机器出现故障，它可以将任务转移到其他机器上。

我推荐观看这个视频，我很幸运能够现场参加这次聚会： https://www.youtube.com/watch?v=gzx4-6RB7Yw

它演示了使用 Spark、HDFS、Mesos 和 Docker 在 Amazon 云机器集群上进行分布式计算。

【讨论】：

一个小问题，我想说 Mesos 更通用，因为它可以控制 YARN 无法控制的广泛类型的分布式系统，包括数据库、Kafka，甚至 HDFS 本身。也就是说，您通常会根据更大的需求来选择集群解决方案，例如，您已经将 Hadoop 用于其他事情。如果 Standalone 目前适合您，我会坚持使用它，因为其他系统的开销更大，但功能更多。