Sparklyr 支持 Spark 2.3.1

Sparklyr support for Spark 2.3.1

我下载了 spark 2.3.1 版,但出现以下错误:

Error in spark_version_from_home(spark_home, default = spark_version) : 
Failed to detect version from SPARK_HOME or SPARK_HOME_VERSION. Try passing the spark version explicitly.

使用 spark_available_versions() 最后的结果是 2.3.0。

sparklyR 还不支持 2.3.1 吗?有什么方法可以绕过这个问题或使用任何其他显式代码来克服这个问题吗?

嗯,我正在研究windows 7、首先验证环境变量是否定义。 SPARK_HOME = c:\sparkPath = C:\spark\bin。然后检查以下命令。

Sys.getenv('SPARK_HOME')
 "C:\spark"
spark_version_from_home(Sys.getenv('SPARK_HOME'))
 "2.3.1"
system('spark-submit --version')
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.3.1
      /_/

Using Scala version 2.11.8, Java HotSpot(TM) 64-Bit Server VM, 1.8.0_151
Branch 
Compiled by user vanzin on 2018-06-01T20:37:04Z
Revision 
Url 
Type --help for more information.

终于和spark建立联系了

sc <- spark_connect(master = "local") # work

现在,只要您的 sparklyr 问题 0.8.4 支持 spark 2.3.1,是和否。那么在我的情况下使用:(抛出错误)

sc <- spark_connect(master = "local", version = "2.3.1") #it does not work
Error in spark_install_find(version, hadoop_version, latest = FALSE, hint = TRUE) : 
  Spark version not installed. To install, use spark_install(version = "2.3.1")

如果我们核实以下日期,apache spark 2.3.1的最后一个版本发布(Jun 08 2018),而sparklyr 0.8.4的最新更新是(May 25 2018)即启动一个月前(spark 2.3.1 不存在)。同样在使用以下命令时:

spark_install(version = "2.3.1")
Error in spark_install_find(version, hadoop_version, installed_only = FALSE,:
spark_available_versions()
   spark
1  1.6.3
2  1.6.2
3  1.6.1
4  1.6.0
5  2.0.0
6  2.0.1
7  2.0.2
8  2.1.0
9  2.1.1
10 2.2.0
11 2.2.1
12 2.3.0

我认为 spark 2.3.1 的支持解决方案完全(不像现在那样部分)是等待 sparklyr 0.9.0 or to communicate with maintenance manager package Javier Luraschi 的启动。