Databricks + H2O PySparkling:addURL Py4JException

Databricks + H2O PySparkling: addURL Py4JException

我是 H2O 和 spark 框架的新手,我在使用 Databricks 中的 H2O+Spark (sparkling-water) PySparkling 时遇到了问题。我在 1.5.2 环境中的 Databricks 中有一个 12 worker 集群 运行ning。

我采取的步骤如下:
1.将H2O所需的必要库(六、请求、制表和未来)附加(安装)到我的集群

  1. 然后,我从 sparkling-water-1.5.14.zip 包中解压后,从 sparkling-water-1.5.14/py/dist 文件夹中取出了必要的 .egg 文件。

  2. 我还将 sparkling-water-assembly-1.5.14.jar 附加到我的 Databricks 集群

  3. 我能够 import h2o 成功。但是,当我 运行 我在 Databricks 中的 python NB 中的以下单元格时,出现以下异常:

    在 Spark 之上启动 H2OContext
    from pysparkling import * hc = H2OContext(sc).start() import h2o

我收到以下错误

py4j.Py4JException: Method addURL([class java.net.URL]) does not exist

衷心感谢有关如何解决此异常的任何指导。

这是一个bug in PySparkling. A fix已经提交但仍在等待下一个版本,可能会在 1.5.15 中引入。

您可以尝试自己从该分支构建 Sparkling Water,并在我们发布下一个版本之前使用它。