带有 Apache Spark 的 Jupyter Notebook(内核错误)

Jupyter Notebook with Apache Spark (Kernel Error)

我的目标是将 Jupyter Notebook (IPython) 与 Apache Spark 一起使用。我正在使用 Apache Toree 来执行此操作。我正在为 SPARK_HOME 设置环境变量并使用 Jupyter 配置 Apache Toree 安装。一切似乎都很好。

当我运行下面的命令时,一个juypter浏览器被打开ipython notebook --profile=pyspark

当我在下拉菜单中选择 Apache Toree - PySpark 时,我无法在我的笔记本中编码并且我有这个视图(Python 2 是好的):

红色按钮给出:

怎么了?请帮忙?

不是真正的答案,但如果你不喜欢 toree 并且只需要一个本地 spark 来学习和试验,你可以下载一个 spark 的副本,解压它并在你的笔记本的开头使用它:

import os
import sys

os.environ['SPARK_HOME']="<path where you have extracted the spark file>"
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python') )
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'bin') )
sys.path.append( os.path.join(os.environ['SPARK_HOME'], 'python/lib/py4j-0.10.4-src.zip') )

from pyspark import SparkContext,SparkConf
from pyspark.sql import SQLContext, Row
import pyspark.sql.functions as sql


sc = SparkContext()
sqlContext = SQLContext(sc)
print sc.version