Apache zeppelin:Spark 集群配置
Apache zeppelin: Spark cluster configuration
我是 Apache Zeppelin 0.7.1 的 pyspark 新用户,可以访问我的 Spark 集群。我配置了 2 台机器:
- Machine-1:Spark Master + 2 worker + Apache Zeppelin
- Machine-2:2 个工人
情况:
如果我使用 Master (Machine-1) 的 pyspark 控制台,集群工作正常。
当我使用Spark的Local[*]配置时,从
一切正常
飞艇.
根据 this zeppelin 文档,我将 spark://Machine-1:7077 放在 spark 解释器配置的 master 属性 中。然后,一些代码从我的 Zeppelin Notebook 的单元格中运行正常:
%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")
但其他 RDD 转换(例如)永远不会结束:
%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)
怎么了?一些忠告?
先谢谢你。
最终我意识到:
- 工人的内存和内核参数不适合我的
簇。我更改了 spark-env.sh 文件中的值,它是
在职的!。
- Apache Zeppelin 中的配置参数也有一些
错误(需要儿子额外的火花模块)
格雷格,谢谢你的关注。
我是 Apache Zeppelin 0.7.1 的 pyspark 新用户,可以访问我的 Spark 集群。我配置了 2 台机器:
- Machine-1:Spark Master + 2 worker + Apache Zeppelin
- Machine-2:2 个工人
情况:
如果我使用 Master (Machine-1) 的 pyspark 控制台,集群工作正常。
当我使用Spark的Local[*]配置时,从
一切正常 飞艇.
根据 this zeppelin 文档,我将 spark://Machine-1:7077 放在 spark 解释器配置的 master 属性 中。然后,一些代码从我的 Zeppelin Notebook 的单元格中运行正常:
%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")
但其他 RDD 转换(例如)永远不会结束:
%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)
怎么了?一些忠告? 先谢谢你。
最终我意识到:
- 工人的内存和内核参数不适合我的 簇。我更改了 spark-env.sh 文件中的值,它是 在职的!。
- Apache Zeppelin 中的配置参数也有一些 错误(需要儿子额外的火花模块)
格雷格,谢谢你的关注。