【发布时间】:2020-01-05 23:16:51
【问题描述】:
我有一个连接到 Sparkling Water 实例的 Jupyter 笔记本,在 Hadoop 集群上运行。
这是我对处理工作方式的假设:
- 笔记本中的用户代码被提交到正在运行的 Sparkling Water 实例。
- Sparkling Water 将其转换为使用 Spark API 命令。
- 它作为 Spark 作业提交到集群。
- Spark 像执行任何其他作业一样执行它。
我说的对吗?
是这样的吗?
我要解释的更大主题是苏打水是否以分布式方式运行 H2O 算法并利用可用的集群资源。
【问题讨论】:
-
这可能是一个有用的参考(注意有两种运行方式):docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/…
标签: apache-spark h2o