如何与使用 Zeppelin 的一群人一起工作？

【问题标题】：How to work with a group of people using Zeppelin?如何与使用 Zeppelin 的一群人一起工作？
【发布时间】：2018-08-31 01:23:12
【问题描述】：

我正在尝试在我的 Hadoop 集群上使用 Zeppelin：

1 个边缘节点
1 个名称节点
1 个辅助节点
16 个数据节点。

节点规格： CPU：Intel(R) Xeon(R) CPU E5345 @ 2.33GHz，8 核内存：32 GB DDR2

当超过 20 人想同时使用此工具时，我遇到了一些问题。这主要是当我使用 pyspark - 1.6 或 2.0 时。即使我设置 zeppelin.execution.memory = 512 mb 和 spark.executor memory = 512 mb 仍然相同。我已经尝试了一些解释器选项（用于 pyspark），例如 Per User in scoped/isolated 等，但仍然相同。使用全局选项会更好一些，但过了一段时间我仍然无法在那里做任何事情。我在看边缘节点，我看到内存增长得非常快。我只想将边缘节点用作接入点。

【问题讨论】：

标签： hadoop pyspark apache-zeppelin

【解决方案1】：

如果您的部署模式是纱线客户端，那么您的驱动程序将始终是接入点服务器（在您的情况下为边缘节点）。

每个笔记本（per note 模式）或每个用户（per user 模式）都会实例化一个 spark 上下文，在驱动程序和执行程序上分配内存。减少spark.executor.memory 将减轻集群而不是驱动程序。请尝试减少 spark.driver.memory。

Spark 解释器可以实例化 globally、per note 或 per user，我不认为共享同一个解释器 (globally) 是您的解决方案，因为您只能在一次。用户最终会等待其他每个单元格编译完成，然后才能自己编译。

【讨论】：

感谢@MaFF 的回复。我试图减少 spark.driver.memory 但不幸的是，我有同样的问题......还有其他想法吗？
还没有，会试试的。