【问题标题】:How to isolate the spark session for each user on jupyterhub?如何在 jupyterhub 上为每个用户隔离 spark 会话?
【发布时间】:2019-05-23 02:02:09
【问题描述】:

我有一个 AD 插件连接到我的 JupyterHub 安装,以便用户将通过 AD 连接器在 JupyterHub 上进行身份验证。

问题是,如果不同的用户通过 JupyterHub 上的 Jupyter Notebook 将他们的 Spark 作业提交到共享的底层 Spark 引擎,是否有一种方法可以让每个用户拥有自己的独立 Spark 会话而不是共享会话?

提前非常感谢!

【问题讨论】:

标签: apache-spark jupyter jupyterhub


【解决方案1】:

通过使用这种部署模式:

  • 用户将连接到绑定到 AD 的共享 JupyterHub
  • 如果他们通过身份验证,将生成一个新的 Jupyter Notebook(服务器)
  • 然后在他们的 Jupyter Notebook 中,他们将根据您的部署在本地或集群模式下使用 Spark。在这两种情况下,驱动程序都专用于它们的使用(不共享)。

在这个典型的部署中,除了 Spark 集群(如果有的话)之外,没有任何东西是共享的。每个用户都可以获取和管理一个新的SparkSession

请参阅jupyterhub-deploy-docker 的此图表。

【讨论】:

  • 嗨 Romain,非常感谢您在这里提供的帮助!这真的很有帮助!顺便说一句,我在 AWS EMR 上有一个非常相似的案例,如果你有时间,你能帮忙检查一下吗? stackoverflow.com/questions/53915066/…
猜你喜欢
  • 2019-05-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2020-12-22
  • 2012-02-09
  • 2021-04-09
相关资源
最近更新 更多