【问题标题】:How to run PySpark (possibly in client mode) on Mesosphere cluster?如何在 Mesosphere 集群上运行 PySpark(可能在客户端模式下)?
【发布时间】:2015-09-16 08:13:28
【问题描述】:

我正在尝试在 Mesosphere 集群上运行 PySpark 作业,但我似乎无法让它运行。我了解 Mesos 不支持 PySpark 应用程序的集群部署模式,它需要在客户端模式下运行。我相信这就是问题所在。

当我尝试提交 PySpark 作业时,我得到以下输出。

... socket.hpp:107] Shutdown failed on fd=48: Transport endpoint is not connected [107]

我认为在客户端模式下运行的 spark 作业需要直接连接到节点,这被阻止了?

我需要更改什么配置才能在客户端模式下运行 PySpark 作业?

【问题讨论】:

    标签: apache-spark pyspark mesosphere


    【解决方案1】:

    在客户端模式下运行 PySpark(意味着驱动程序在您调用 Python 的地方运行)时,驱动程序成为 Mesos 框架。发生这种情况时,运行框架的主机需要能够连接到集群中的所有节点,并且它们需要能够连接回来,这意味着 没有 NAT

    如果这确实是您的问题的原因,有两个环境变量可能有用。如果您可以安装 VPN,则可以将 LIBPROCESS_IPSPARK_LOCAL_IP 都设置为集群节点可用于连接回驱动程序的主机 IP。

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2019-11-15
      • 1970-01-01
      • 2017-04-27
      • 2017-07-02
      • 2018-02-10
      • 2023-03-25
      • 1970-01-01
      • 2018-05-07
      相关资源
      最近更新 更多