【问题标题】:How to work with a group of people using Zeppelin?如何与使用 Zeppelin 的一群人一起工作?
【发布时间】:2018-08-31 01:23:12
【问题描述】:

我正在尝试在我的 Hadoop 集群上使用 Zeppelin:

  1. 1 个边缘节点
  2. 1 个名称节点
  3. 1 个辅助节点
  4. 16 个数据节点。

节点规格: CPU:Intel(R) Xeon(R) CPU E5345 @ 2.33GHz,8 核 内存:32 GB DDR2

当超过 20 人想同时使用此工具时,我遇到了一些问题。 这主要是当我使用 pyspark - 1.6 或 2.0 时。 即使我设置 zeppelin.execution.memory = 512 mbspark.executor memory = 512 mb 仍然相同。我已经尝试了一些解释器选项(用于 pyspark),例如 Per User in scoped/isolated 等,但仍然相同。使用全局选项会更好一些,但过了一段时间我仍然无法在那里做任何事情。我在看边缘节点,我看到内存增长得非常快。我只想将边缘节点用作接入点。

【问题讨论】:

    标签: hadoop pyspark apache-zeppelin


    【解决方案1】:

    如果您的部署模式是纱线客户端,那么您的驱动程序将始终是接入点服务器(在您的情况下为边缘节点)。

    每个笔记本(per note 模式)或每个用户(per user 模式)都会实例化一个 spark 上下文,在驱动程序和执行程序上分配内存。减少spark.executor.memory 将减轻集群而不是驱动程序。请尝试减少 spark.driver.memory

    Spark 解释器可以实例化 globallyper noteper user,我不认为共享同一个解释器 (globally) 是您的解决方案,因为您只能在一次。用户最终会等待其他每个单元格编译完成,然后才能自己编译。

    【讨论】:

    • 感谢@MaFF 的回复。我试图减少 spark.driver.memory 但不幸的是,我有同样的问题......还有其他想法吗?
    • 还没有,会试试的。
    猜你喜欢
    • 2016-03-22
    • 1970-01-01
    • 2018-05-15
    • 2014-09-12
    • 1970-01-01
    • 2019-10-23
    • 2016-07-24
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多