【发布时间】:2023-03-28 08:43:02
【问题描述】:
我正在尝试在 docker 实例中建立 Spark,然后从外部 python 进程连接到它。
上下文:此设置对于 Travis 中基于 Spark 的代码的 CI/CD 很重要。我也希望用它为分布式团队建立一致的开发环境。
我该怎么做?
这个 docker 镜像非常适合用来启动 spark:https://hub.docker.com/r/jupyter/pyspark-notebook/
通过 dockerized notebook 进行连接是开箱即用的。 (除了调试之外,我实际上并没有使用笔记本,所以我可能稍后会删除它们。目前,它们是一个很好的调试工具。)
我无法从外部 python 进程(笔记本或其他)连接。在我启动 python 或实例化我的 SparkContext 时是否需要设置环境变量?
【问题讨论】:
标签: python apache-spark docker