【发布时间】:2021-04-29 03:13:04
【问题描述】:
我希望从概念上了解在 Spark 内核(例如 SparkMagic)上运行的多个 Jupyter 笔记本如何共享一个工作节点集群。
如果用户 A 在一个单元格中保留或缓存一个大型 RDD(无论是在磁盘上还是在内存上),然后在周末离开但没有停止他/她的笔记本,这会降低其他用户运行他们的笔记本电脑的能力吗?用户 A 的笔记本正在运行时的作业?
也就是说,所有共享集群的Spark notebook都可以同时提交作业(不必顺序运行),但是资源会被分摊,对吧?
这是一个普遍的问题,但对我们来说,我们在美国地区的 AWS Sagemaker 和 EMR 环境中运行,以防万一。
【问题讨论】:
标签: amazon-web-services apache-spark jupyter-notebook amazon-emr amazon-sagemaker