了解苏打水

Understanding Sparkling Water

我是 Sparkling Water 的新手,我想问一些 quick 问题:

  1. Sparking Water是否支持Spark MLlib和H2O提供的所有算法

  2. Sparkling Water本身是否提供Spark MLlib和H2O不支持的算法?

  3. 如果我想在 Sparkling Water 上下文中使用纯 Spark MLlib 编写代码,我是否必须使用 H2OContext 或与 Sparkling Water 相关的 API?

根据以上 3 个问题,我想我想了解的是 Sparkling Water 的工作原理。 (目前我只知道Sparkling Water是把Spark和H2O结合在一起)

谢谢。

Questions-2017-01-11

我能够 运行 AirlinesWithWeatherDemo2 示例 run-example.sh 成功,但我有两个问题:

  1. H2O Flow web ui在申请运行ning期间打开(可以通过54321端口访问),但是当申请结束时, 打开 54321 端口的进程也被关闭(web ui 无法再访问),我会问当我 运行 举这个例子时,这个流程 UI 提供什么功能因为它可能是短暂的

  2. Sparkling water是集成Spark和H2O的意思,我提交例子的时候只需要sparkling-water-assembly_2.11-2.0.3-all作为applicaiton jar(里面有示例 类), 看起来,如果我想 运行 苏打水不提供的 H2O 算法,我应该添加 H2O 罐子(h2o.jar)作为依赖罐子?

  1. 不是,我们正在努力包装 Spark 的 MLlib 算法,以便您可以 运行 从 H2O 的 FlowUI 和包装 H2O 的算法,以便您可以在 MLlib 的管道中使用它们。

  2. 仅当您想要 运行 H2O 特定功能时才需要 H2OContext。

Sparkling Water 只允许您在 Spark 节点内 运行 H2O 节点,而不是手动引导 H2O 集群。这也允许您在 H2O 和 Spark 中使用数据。

@编辑:

  1. None 但您可能有一个很长的 运行ning Spark 作业,在进行一些初始计算后您不会退出但会锁定该作业(并且需要终止它以某种方式)。然后你就可以正常使用 FlowUI 了。我们只是每次都启动 HTTP 服务器(即使是演示)。没有理由不去做。

  2. 您可以使用我们的 droplet 之一 - https://github.com/h2oai/h2o-droplets/tree/master/sparkling-water-droplet 这是一个模板项目,您可以在主 class 和 运行 ./gradlew shadowJar 并使用 spark-submit 提交 jar,它已经包含了所有的 jar。或者,正如您提到的,您需要提供(尽管 --jars--packages)所有必要的依赖项,包括 H2O.jar。