将 `SPARK_HOME` 设置为什么?
What to set `SPARK_HOME` to?
安装了apache-maven-3.3.3,scala 2.11.6,然后运行:
$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package
最后:
$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests
那么运行服务器:
$ bin/zeppelin-daemon.sh start
运行一个以%pyspark
开头的简单笔记本,我得到一个关于py4j
没有被找到的错误。刚做了 pip install py4j
(ref).
现在我收到这个错误:
pyspark is not responding Traceback (most recent call last):
File "/tmp/zeppelin_pyspark.py", line 22, in <module>
from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf
我试过将 SPARK_HOME
设置为:/spark/python:/spark/python/lib
。没有变化。
需要两个环境变量:
SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH
安装了apache-maven-3.3.3,scala 2.11.6,然后运行:
$ git clone git://github.com/apache/spark.git -b branch-1.4
$ cd spark
$ build/mvn -DskipTests clean package
最后:
$ git clone https://github.com/apache/incubator-zeppelin
$ cd incubator-zeppelin/
$ mvn install -DskipTests
那么运行服务器:
$ bin/zeppelin-daemon.sh start
运行一个以%pyspark
开头的简单笔记本,我得到一个关于py4j
没有被找到的错误。刚做了 pip install py4j
(ref).
现在我收到这个错误:
pyspark is not responding Traceback (most recent call last):
File "/tmp/zeppelin_pyspark.py", line 22, in <module>
from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf
我试过将 SPARK_HOME
设置为:/spark/python:/spark/python/lib
。没有变化。
需要两个环境变量:
SPARK_HOME=/spark
PYTHONPATH=$SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-VERSION-src.zip:$PYTHONPATH