【问题标题】:How to connect to spark running within a docker instance如何连接到在 docker 实例中运行的 spark
【发布时间】:2023-03-28 08:43:02
【问题描述】:

我正在尝试在 docker 实例中建立 Spark,然后从外部 python 进程连接到它。

上下文:此设置对于 Travis 中基于 Spark 的代码的 CI/CD 很重要。我也希望用它为分布式团队建立一致的开发环境。

我该怎么做?

这个 docker 镜像非常适合用来启动 spark:https://hub.docker.com/r/jupyter/pyspark-notebook/

通过 dockerized notebook 进行连接是开箱即用的。 (除了调试之外,我实际上并没有使用笔记本,所以我可能稍后会删除它们。目前,它们是一个很好的调试工具。)

我无法从外部 python 进程(笔记本或其他)连接。在我启动 python 或实例化我的 SparkContext 时是否需要设置环境变量?

【问题讨论】:

    标签: python apache-spark docker


    【解决方案1】:

    您是否正确暴露了火花端口?查看您共享的链接 (https://hub.docker.com/r/jupyter/pyspark-notebook/),我无法弄清楚您是如何启动容器的。您需要将 spark 主端口公开给主机,然后从您的 python 代码中使用它。你能分享你用来启动容器(或你的 docker-compose.yml)的命令吗?还可以从 python 代码中分享您正在使用的 url。

    【讨论】:

      猜你喜欢
      • 2021-11-09
      • 1970-01-01
      • 2020-06-02
      • 1970-01-01
      • 2015-07-20
      • 1970-01-01
      • 2021-09-16
      • 1970-01-01
      • 2014-10-23
      相关资源
      最近更新 更多