H2O 苏打水架构

H2O Sparkling Water architecture

我有一个 Jupyter notebook 连接到 Hadoop 集群上的 Sparkling Water 实例,运行。

这是我对处理工作原理的假设:

  1. notebook 中的用户代码已提交到 运行 Sparkling Water 实例。
  2. Sparkling Water 将其转换为使用 Spark API 命令。
  3. 它作为 Spark 作业提交到集群。
  4. Spark 像执行任何其他作业一样执行它。

我说得对吗?
这是它的工作原理吗?

我想解释的更大的主题是 Sparkling Water 是否以分布式方式运行 H2O 算法并利用可用的集群资源。

is whether Sparkling Water runs the H2O algorithms in a distributed manner and utilizes the available cluster resources

是的。

Sparkling Water 在 Spark 执行器中嵌入了 H2O 节点。因此,Sparkling Water 作业将以与核心 H2O-3 完全相同的方式训练 H2O 模型(图中没有 Spark)。

H2O 集群不喜欢节点加入或离开一次运行,因此您必须将 spark dynamicAllocation 属性 设置为禁用。

与 Spark-ness 的 Sparkling Water 相比,没有性能改进或降低。相反,它是一种将 H2O 机器学习模型引入 Spark 环境或管道的友好方式。

这是一个指向 Sparkling Water 设计文档的指针,其中有一张说明上述内容的图片 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html