安装最新的气泡水版本

Install latest Sparkling Water Version

我正在按照 Sparkling Water 的安装指南进行操作,但它根本不起作用。如您所见,它包含 8 个步骤:rsparkling

我正在尝试执行以下操作,下载最新版本的苏打水,解压缩文件。并使用以下代码:

install.packages("C:/Users/USER/Downloads/sparkling-water-2.3.259_nightly/rsparkling.tar.gz", repos=NULL, type="source")
* installing *source* package 'rsparkling' ...
** package 'rsparkling' successfully unpacked and MD5 sums checked
** R
** inst
** preparing package for lazy loading
** help
*** installing help indices
** building package indices
** testing if installed package can be loaded
* DONE (rsparkling)
In R CMD INSTALL

到目前为止一切似乎都很好。

options(rsparkling.sparklingwater.version = "2.3.259_nightly")
library(rsparkling)
# 7. Connect to Spark
sc <- sparklyr::spark_connect(master = "local")
Error: invalid version specification ‘2.3.259_nightly’

Error: invalid version specification ‘2.3.259_nightly’

注: 下载 Sparkling Water Nightly Bleeding Edge 版本。 h2o、SparkR、sparklyr 包和连接在 windows 7 R 版本 3.4.4 上正常工作,我只有 rsparkling.

有问题
system('spark-submit --version')
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_151
Branch 
Compiled by user vanzin on 2018-06-01T20:37:04Z

为了解决这个问题,我安装了相应版本的rsparkling,兼容最新版本的h2o

编辑问题: Lauren 感谢您提供的链接,现在我正在使用最新稳定版的 h2o 3.20.0.5 和 sparkling water。但显然我认为问题不在于 rsparkling 包,而在于 sparklyr 包,因为 apache spark 2.3.1 的最新版本已发布(2018 年 6 月 8 日),而 sparklyr 0.8.4 的最新更新是(5 月) 25 2018)也就是提前一个月推出(spark 2.3.1 不存在)。因此命令:

spark_available_versions()
   spark
1  1.6.3
2  1.6.2
3  1.6.1
4  1.6.0
5  2.0.0
6  2.0.1
7  2.0.2
8  2.1.0
9  2.1.1
10 2.2.0
11 2.2.1
12 2.3.0

# Set spark connection
sc <- spark_connect(master = "local", version = "2.3.1") #It does not work
Error in spark_install_find(version, hadoop_version, latest = FALSE, hint = TRUE) : 
Spark version not installed. To install, use spark_install(version = "2.3.1")
spark_install(version = "2.3.1")
Error in spark_install_find(version, hadoop_version, installed_only = FALSE,  : 
Spark version not available. Find available versions, using spark_available_versions()
sc <- spark_connect(master = "local") #it works perfectly

我认为解决方案将等待 sparklyr 0.9.0

夜间下载页面适用于简单的环境,并不意味着捕获所有可能的配置。

但是,由于此问题特定于 Windows,您可以找到有关如何在 Windows 环境 here and how to Use Rsparkling in Windows Environments here 中使用苏打水的文档(注意这些是针对最新的稳定版,但每晚发布的说明应该类似)。

虽然您的问题是针对 Windows 的,但您可能想尝试 this solution,它在 Mac 中运行良好。

首先安装最新版本的 sparklyr 并连接到 Spark

library(sparklyr)
spark_install(version = "2.3.2")
sc <- spark_connect(master = "local", version = "2.3.2")

安装正确版本的 H2O:

install.packages("h2o", type = "source", repos = "https://h2o-release.s3.amazonaws.com/h2o/rel-wright/10/R")
packageVersion("h2o")
[1] ‘3.20.0.10’

验证苏打水与水的相容性

rsparkling::h2o_release_table()[1:5,]
   Spark_Version Sparkling_Water_Version H2O_Version H2O_Release_Name H2O_Release_Patch_Number
1            2.3                  2.3.16   3.20.0.10       rel-wright                       10
17           2.3                  2.3.15    3.20.0.9       rel-wright                        9
16           2.3                  2.3.14    3.20.0.8       rel-wright                        8
15           2.3                  2.3.13    3.20.0.7       rel-wright                        7
14           2.3                  2.3.12    3.20.0.6       rel-wright                        6

设置与 RSparkling 一起使用的 Sparkling Water 版本

options(rsparkling.sparklingwater.version = "2.3.16")
library(rsparkling)

现在,H2OContext 可用,我们可以使用 R 中可用的任何 H2O 功能。 h2o_context(sc) org.apache.spark.h2o.H2OContext

Sparkling Water Context:
 * H2O name: sparkling-water-USER_local-1539839100465
 * cluster size: 1
 * list of used nodes:
  (executorId, host, port)
  ------------------------
  (driver,127.0.0.1,54321)
  ------------------------

  Open H2O Flow in browser: http://127.0.0.1:54321 (CMD + click in Mac OSX)

h2o_flow(sc)

初始化Spark UI

现在通过 Sparkling Water 将 Spark 与 H2O 集成可以完美地工作。