运行 Dataproc 上的 Spark + Scala + Jupyter

Running Spark + Scala + Jupyter on Dataproc

我还没有设法让 Spark、Scala 和 Jupyter 合作。谁有简单的食谱?您使用了每个组件的哪个版本?

Spark 是 Dataproc 集群的标准配置。

这是一个 gcloud 命令,可用于创建 Dataproc 集群(名为 "dplab"),其中包括侦听端口 8124 的 Jupyter:

$ gcloud dataproc clusters create dplab \
 --initialization-actions \
     gs://dataproc-initialization-actions/jupyter/jupyter.sh \
 --metadata "JUPYTER_PORT=8124" \
 --zone=us-central1-c

然后运行这个命令从你的主机端口转发到集群主机:

$ gcloud compute ssh dplab-m \
 --ssh-flag="-Llocalhost:8124:localhost:8124" --zone=us-central1-c

在浏览器中打开 localhost:8124,您应该会看到 Jupyter 页面。

Apache Toree 与 DataProc 的 1.0 映像兼容,该映像目前包括 Spark 1.6.1。我曾尝试将它与预览图像一起使用,但没有成功,其中包括 Spark 2.0 预览。要在 DataProc 主机上安装 Toree,您可以 运行

sudo apt install python3-pip
pip3 install --user jupyter
export SPARK_HOME=/usr/lib/spark
pip3 install --pre --user toree
export PATH=$HOME/.local/bin:$PATH
jupyter toree install --user --spark_home=$SPARK_HOME