H2O 苏打水架构
H2O Sparkling Water architecture
我有一个 Jupyter notebook 连接到 Hadoop 集群上的 Sparkling Water 实例,运行。
这是我对处理工作原理的假设:
- notebook 中的用户代码已提交到 运行 Sparkling Water 实例。
- Sparkling Water 将其转换为使用 Spark API 命令。
- 它作为 Spark 作业提交到集群。
- Spark 像执行任何其他作业一样执行它。
我说得对吗?
这是它的工作原理吗?
我想解释的更大的主题是 Sparkling Water 是否以分布式方式运行 H2O 算法并利用可用的集群资源。
is whether Sparkling Water runs the H2O algorithms in a distributed manner and utilizes the available cluster resources
是的。
Sparkling Water 在 Spark 执行器中嵌入了 H2O 节点。因此,Sparkling Water 作业将以与核心 H2O-3 完全相同的方式训练 H2O 模型(图中没有 Spark)。
H2O 集群不喜欢节点加入或离开一次运行,因此您必须将 spark dynamicAllocation 属性 设置为禁用。
与 Spark-ness 的 Sparkling Water 相比,没有性能改进或降低。相反,它是一种将 H2O 机器学习模型引入 Spark 环境或管道的友好方式。
这是一个指向 Sparkling Water 设计文档的指针,其中有一张说明上述内容的图片 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html。
我有一个 Jupyter notebook 连接到 Hadoop 集群上的 Sparkling Water 实例,运行。
这是我对处理工作原理的假设:
- notebook 中的用户代码已提交到 运行 Sparkling Water 实例。
- Sparkling Water 将其转换为使用 Spark API 命令。
- 它作为 Spark 作业提交到集群。
- Spark 像执行任何其他作业一样执行它。
我说得对吗?
这是它的工作原理吗?
我想解释的更大的主题是 Sparkling Water 是否以分布式方式运行 H2O 算法并利用可用的集群资源。
is whether Sparkling Water runs the H2O algorithms in a distributed manner and utilizes the available cluster resources
是的。
Sparkling Water 在 Spark 执行器中嵌入了 H2O 节点。因此,Sparkling Water 作业将以与核心 H2O-3 完全相同的方式训练 H2O 模型(图中没有 Spark)。
H2O 集群不喜欢节点加入或离开一次运行,因此您必须将 spark dynamicAllocation 属性 设置为禁用。
与 Spark-ness 的 Sparkling Water 相比,没有性能改进或降低。相反,它是一种将 H2O 机器学习模型引入 Spark 环境或管道的友好方式。
这是一个指向 Sparkling Water 设计文档的指针,其中有一张说明上述内容的图片 - http://docs.h2o.ai/sparkling-water/2.3/latest-stable/doc/design/design.html。