Apache zeppelin:Spark 集群配置

Apache zeppelin: Spark cluster configuration

我是 Apache Zeppelin 0.7.1 的 pyspark 新用户,可以访问我的 Spark 集群。我配置了 2 台机器:

情况:

根据 this zeppelin 文档,我将 spark://Machine-1:7077 放在 spark 解释器配置的 master 属性 中。然后,一些代码从我的 Zeppelin Notebook 的单元格中运行正常:

%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")

但其他 RDD 转换(例如)永远不会结束:

%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)

怎么了?一些忠告? 先谢谢你。

最终我意识到:

  1. 工人的内存和内核参数不适合我的 簇。我更改了 spark-env.sh 文件中的值,它是 在职的!。
  2. Apache Zeppelin 中的配置参数也有一些 错误(需要儿子额外的火花模块)

格雷格,谢谢你的关注。