EMR Master SSH 不允许

Question

到运行 Scala spark 作业和运行 spark shell 查询...我一直在通过 SSH 连接到 EMR 的主节点，现在负责管理的团队云不允许我通过 SSH 连接到 EMR 主节点。可以利用哪些替代模式？

Answer 1

如果云团队乐于允许访问 Zeppelin，Zeppelin 就是最好的选择。

%spark 解释器几乎 spark-shell 运行ning 在笔记本的段落中。

默认情况下，它还会导入 spark.sql、SparkContext 等重要内容，因此您无需导入任何内容，只需运行代码即可，例如：

%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()

val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()

（spark-shell 也可以这样做，但我用得不够多，手头就知道）

由于 Zeppelin 实际上运行正在 Spark 主节点上运行，您甚至可以使用 shell 解释器 %sh 访问主节点的 os，例如：

%sh
ls /
aws s3 cp s3://mybucket/myfile /

尽管您的访问权限当然取决于 os 权限。

请注意，一旦您关闭集群，您的笔记本也会消失！请务必在 possible 时下载它。

EMR Master SSH 不允许

EMR Master SSH disallowed

apache-spark

ssh

amazon-emr