【问题标题】:H2O Sparkling Water architectureH2O 苏打水建筑
【发布时间】:2020-01-05 23:16:51
【问题描述】:

我有一个连接到 Sparkling Water 实例的 Jupyter 笔记本,在 Hadoop 集群上运行。

这是我对处理工作方式的假设:

  1. 笔记本中的用户代码被提交到正在运行的 Sparkling Water 实例。
  2. Sparkling Water 将其转换为使用 Spark API 命令。
  3. 它作为 Spark 作业提交到集群。
  4. Spark 像执行任何其他作业一样执行它。

我说的对吗?
是这样的吗?

我要解释的更大主题是苏打水是否以分布式方式运行 H2O 算法并利用可用的集群资源。

【问题讨论】:

标签: apache-spark h2o


【解决方案1】:

是Sparkling Water 是否以分布式方式运行H2O 算法并利用可用的集群资源

是的。

Sparkling Water 在 Spark 执行器中嵌入 H2O 节点。因此,Sparkling Water 作业将以与核心 H2O-3 完全相同的方式训练 H2O 模型(图中没有 Spark)。

H2O 集群不希望节点在运行后加入或离开,因此您必须将 spark dynamicAllocation 属性设置为禁用。

苏打水的火花性不会提高或降低性能。相反,这是一种将 H2O 机器学习模型引入 Spark 环境或管道的友好方式。

这里是指向苏打水设计文档的指针,其中有一张说明上述内容的图片 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html

【讨论】:

    猜你喜欢
    • 2015-09-23
    • 2019-03-03
    • 2019-08-08
    • 2023-03-29
    • 1970-01-01
    • 2017-11-15
    • 2022-01-23
    • 2017-08-22
    • 1970-01-01
    相关资源
    最近更新 更多