【问题标题】:Where do I run spark - Standalone, Hadoop or Mesos我在哪里运行 spark - 独立、Hadoop 或 Mesos
【发布时间】:2023-03-26 00:57:02
【问题描述】:

我正在学习 Spark,但如果我必须在 Hadoop/Yarn 或 Mesos 上运行 Spark,我会感到困惑。

如果我在 Hadoop/Mesos 上运行,是否有任何性能提升?

现在,我只是在一个 4 节点集群上独立运行。

有经验的用户可以在这里提供一些指导吗?

【问题讨论】:

    标签: hadoop apache-spark hadoop-yarn mesos


    【解决方案1】:

    根据您的用例的详细信息,您可能会看到任何给定配置的性能与另一个配置相比有起有落。然而 Hadoop 和 Mesos 为您提供了性能以外的其他优势。每种情况都有很多,但例如:

    Hadoop

    • HDFS 作为弹性分布式文件存储。
    • 使用 Hadoop 中存在的元数据访问数据集,例如通过 HiveContext
    • 将 Spark 处理与 Map-Reduce 等其他方法混合使用
    • YARN 作为资源管理器为您的任务分配资源

    Mesos - Mesos 比 Hadoop 更专注于特定角色,即跨机器集群管理资源。但是,它在一系列工作负载类型中执行此操作。这些可能是数据处理作业,例如 Spark、Akka 中的分布式应用程序、分布式数据库等。如果一台机器出现故障,它可以将任务转移到其他机器上。

    我推荐观看这个视频,我很幸运能够现场参加这次聚会: https://www.youtube.com/watch?v=gzx4-6RB7Yw

    它演示了使用 Spark、HDFS、Mesos 和 Docker 在 Amazon 云机器集群上进行分布式计算。

    【讨论】:

    • 一个小问题,我想说 Mesos 更通用,因为它可以控制 YARN 无法控制的广泛类型的分布式系统,包括数据库、Kafka,甚至 HDFS 本​​身。也就是说,您通常会根据更大的需求来选择集群解决方案,例如,您已经将 Hadoop 用于其他事情。如果 Standalone 目前适合您,我会坚持使用它,因为其他系统的开销更大,但功能更多。
    猜你喜欢
    • 2018-02-27
    • 1970-01-01
    • 2014-01-23
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2017-11-29
    • 1970-01-01
    相关资源
    最近更新 更多