EMR Master SSH 不允许
EMR Master SSH disallowed
到 运行 Scala spark 作业和 运行 spark shell 查询...我一直在通过 SSH 连接到 EMR 的主节点,现在负责管理的团队云不允许我通过 SSH 连接到 EMR 主节点。可以利用哪些替代模式?
如果云团队乐于允许访问 Zeppelin,Zeppelin 就是最好的选择。
%spark
解释器几乎 spark-shell
运行ning 在笔记本的段落中。
默认情况下,它还会导入 spark.sql
、SparkContext
等重要内容,因此您无需导入任何内容,只需 运行 代码即可,例如:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
(spark-shell
也可以这样做,但我用得不够多,手头就知道)
由于 Zeppelin 实际上 运行 正在 Spark 主节点上运行,您甚至可以使用 shell 解释器 %sh
访问主节点的 os,例如:
%sh
ls /
aws s3 cp s3://mybucket/myfile /
尽管您的访问权限当然取决于 os 权限。
请注意,一旦您关闭集群,您的笔记本也会消失!请务必在 possible 时下载它。
到 运行 Scala spark 作业和 运行 spark shell 查询...我一直在通过 SSH 连接到 EMR 的主节点,现在负责管理的团队云不允许我通过 SSH 连接到 EMR 主节点。可以利用哪些替代模式?
如果云团队乐于允许访问 Zeppelin,Zeppelin 就是最好的选择。
%spark
解释器几乎 spark-shell
运行ning 在笔记本的段落中。
默认情况下,它还会导入 spark.sql
、SparkContext
等重要内容,因此您无需导入任何内容,只需 运行 代码即可,例如:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
(spark-shell
也可以这样做,但我用得不够多,手头就知道)
由于 Zeppelin 实际上 运行 正在 Spark 主节点上运行,您甚至可以使用 shell 解释器 %sh
访问主节点的 os,例如:
%sh
ls /
aws s3 cp s3://mybucket/myfile /
尽管您的访问权限当然取决于 os 权限。
请注意,一旦您关闭集群,您的笔记本也会消失!请务必在 possible 时下载它。