如何将 spark 包添加到 DSX 上的 Spark R notebook?

How to add spark packages to Spark R notebook on DSX?

spark documentation 展示了如何添加 spark 包:

sparkR.session(sparkPackages = "com.databricks:spark-avro_2.11:3.0.0")

我相信这只能在初始化会话时使用。

我们如何使用 DSX 上的笔记本为 SparkR 添加 spark 包?

请使用 pixiedust 包管理器安装 avro 包。

pixiedust.installPackage("com.databricks:spark-avro_2.11:3.0.0")

http://datascience.ibm.com/docs/content/analyze-data/Package-Manager.html

从 python 1.6 内核安装它,因为 pixiedust 在 python 中是可导入的。(记住这是在您的 spark 实例级别安装的)。 安装后,重新启动内核,然后切换到 R 内核,然后像这样读取 avro:-

df1 <- read.df("episodes.avro", source = "com.databricks.spark.avro", header = "true")

head(df1)

完成笔记本:-

https://github.com/charles2588/bluemixsparknotebooks/raw/master/R/sparkRPackageTest.ipynb

谢谢, 查尔斯.