Apache zeppelin：Spark 集群配置

Question

我是 Apache Zeppelin 0.7.1 的 pyspark 新用户，可以访问我的 Spark 集群。我配置了 2 台机器：

情况：

根据 this zeppelin 文档，我将 spark://Machine-1:7077 放在 spark 解释器配置的 master 属性中。然后，一些代码从我的 Zeppelin Notebook 的单元格中运行正常：

%spark
sc.version
sc.getConf.get("spark.home")
System.getenv().get("PYTHONPATH")
System.getenv().get("SPARK_HOME")

但其他 RDD 转换（例如）永远不会结束：

%pyspark
input_file = "/tmp/kddcup.data_10_percent.gz"
raw_rdd = sc.textFile(input_file)

怎么了？一些忠告？先谢谢你。

Answer 1

最终我意识到：

格雷格，谢谢你的关注。

Apache zeppelin: Spark cluster configuration