运行 Dataproc 上的 Spark + Scala + Jupyter

Question

我还没有设法让 Spark、Scala 和 Jupyter 合作。谁有简单的食谱？您使用了每个组件的哪个版本？

Answer 1

Spark 是 Dataproc 集群的标准配置。

这是一个 gcloud 命令，可用于创建 Dataproc 集群（名为 "dplab"），其中包括侦听端口 8124 的 Jupyter：

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行这个命令从你的主机端口转发到集群主机：

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开 localhost:8124，您应该会看到 Jupyter 页面。

Answer 2

Apache Toree 与 DataProc 的 1.0 映像兼容，该映像目前包括 Spark 1.6.1。我曾尝试将它与预览图像一起使用，但没有成功，其中包括 Spark 2.0 预览。要在 DataProc 主机上安装 Toree，您可以运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME

运行 Dataproc 上的 Spark + Scala + Jupyter

Running Spark + Scala + Jupyter on Dataproc

scala

apache-spark

google-cloud-dataproc

jupyter-notebook

apache-toree