在 toree 中安装 spark 包
install spark packages in toree
我通常以以下方式开始我的 spark-shell:
./bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1
我现在正在尝试使用 Apache Toree,知道我应该如何在笔记本上加载这些库吗?
我尝试了以下方法:
jupyter toree install --user --spark_home=/home/eron/spark-1.6.1/ --spark_opts="--packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1"
但这似乎不起作用
您可以在SPARK_OPTS
环境变量中指定包:
export SPARK_OPTS='--packages com.databricks:spark-csv_2.10:1.4.0'
修改 spark-defaults.conf
也有效:
echo spark.jars.packages=com.databricks:spark-csv_2.10:1.4.0 | sudo tee -a $SPARK_HOME/conf/spark-defaults.conf
我认为您也可以在笔记本中使用 %AddDeps。例如,像这样:
%AddDeps "graphframes" % "graphframes" % "0.1.0-spark1.6" --repository http://dl.bintray.com/spark-packages/maven
当您将 Apache Toree 正确安装为 Jupyter 的内核时,您可以从笔记本单元中定义 Maven 依赖项,如下所示:
%AddDeps org.apache.spark spark-mllib_2.10 1.6.2
%AddDeps com.github.haifengl smile-core 1.1.0 --transitive
%AddDeps io.reactivex rxscala_2.10 0.26.1 --transitive
%AddDeps com.chuusai shapeless_2.10 2.3.0 --repository https://oss.sonatype.org/content/repositories/releases/
%AddDeps org.tmoerman plongeur-spark_2.10 0.3.9 --repository file:/Users/tmo/.m2/repository
(摘自this notebook)
%AddDeps
是所谓的 magic,如 Spark 内核(现更名为 Toree)中所述 wiki.
我通常以以下方式开始我的 spark-shell:
./bin/spark-shell --packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1
我现在正在尝试使用 Apache Toree,知道我应该如何在笔记本上加载这些库吗?
我尝试了以下方法:
jupyter toree install --user --spark_home=/home/eron/spark-1.6.1/ --spark_opts="--packages com.databricks:spark-csv_2.10:1.2.0,graphframes:graphframes:0.1.0-spark1.6,com.databricks:spark-avro_2.10:2.0.1"
但这似乎不起作用
您可以在SPARK_OPTS
环境变量中指定包:
export SPARK_OPTS='--packages com.databricks:spark-csv_2.10:1.4.0'
修改 spark-defaults.conf
也有效:
echo spark.jars.packages=com.databricks:spark-csv_2.10:1.4.0 | sudo tee -a $SPARK_HOME/conf/spark-defaults.conf
我认为您也可以在笔记本中使用 %AddDeps。例如,像这样:
%AddDeps "graphframes" % "graphframes" % "0.1.0-spark1.6" --repository http://dl.bintray.com/spark-packages/maven
当您将 Apache Toree 正确安装为 Jupyter 的内核时,您可以从笔记本单元中定义 Maven 依赖项,如下所示:
%AddDeps org.apache.spark spark-mllib_2.10 1.6.2
%AddDeps com.github.haifengl smile-core 1.1.0 --transitive
%AddDeps io.reactivex rxscala_2.10 0.26.1 --transitive
%AddDeps com.chuusai shapeless_2.10 2.3.0 --repository https://oss.sonatype.org/content/repositories/releases/
%AddDeps org.tmoerman plongeur-spark_2.10 0.3.9 --repository file:/Users/tmo/.m2/repository
(摘自this notebook)
%AddDeps
是所谓的 magic,如 Spark 内核(现更名为 Toree)中所述 wiki.