【问题标题】:Clustering sharing between Spark kernel notebooksSpark 内核笔记本之间的集群共享
【发布时间】:2021-04-29 03:13:04
【问题描述】:

我希望从概念上了解在 Spark 内核(例如 SparkMagic)上运行的多个 Jupyter 笔记本如何共享一个工作节点集群。

如果用户 A 在一个单元格中保留或缓存一个大型 RDD(无论是在磁盘上还是在内存上),然后在周末离开但没有停止他/她的笔记本,这会降低其他用户运行他们的笔记本电脑的能力吗?用户 A 的笔记本正在运行时的作业?

也就是说,所有共享集群的Spark notebook都可以同时提交作业(不必顺序运行),但是资源会被分摊,对吧?

这是一个普遍的问题,但对我们来说,我们在美国地区的 AWS Sagemaker 和 EMR 环境中运行,以防万一。

【问题讨论】:

    标签: amazon-web-services apache-spark jupyter-notebook amazon-emr amazon-sagemaker


    【解决方案1】:

    由单个 EMR 集群支持的 Sagemaker Notebooks 通过 Livy [1] 连接到 EMR 集群。 EMR 主节点上的 Livy 启动 Spark 应用程序,您可以在 Yarn 资源管理器中找到该应用程序。

    每个笔记本都会打开一个单独的会话,然后由资源管理器决定哪个应用程序可以运行,具体取决于集群的资源以及首先提交的作业。

    如果你想控制分配给每个用户/组的资源,你可以为纱线调度器配置不同的队列[2]

    通常 Livy 在特定超时 [3] 后会终止未使用的会话,因此会话不能永远运行。

    【讨论】:

      猜你喜欢
      • 2018-01-12
      • 2020-11-13
      • 2021-03-13
      • 1970-01-01
      • 2014-02-26
      • 2016-11-03
      • 2021-11-28
      • 1970-01-01
      • 2016-12-30
      相关资源
      最近更新 更多