Google Dataproc 上的 Spark UI 在哪里?

Where is the Spark UI on Google Dataproc?

我应该使用哪个端口访问 Google Dataproc 上的 Spark UI?

我尝试了端口 4040 和 7077 以及使用 netstat -pln

发现的许多其他端口

防火墙配置正确。

Dataproc 运行s Spark 在 YARN 之上,因此您不会找到典型的 "Spark standalone" 端口;相反,当 运行 执行 Spark 作业时,您可以访问端口 8088,这将向您显示 YARN ResourceManager 的主页。任何 运行ning Spark 作业都可以通过该页面上的 Application Master link 访问。 Spark Application Master 的页面看起来与熟悉的 Spark 独立登录页面相同,您通常会在端口 8080 上找到默认 Spark 设置。

由于工作人员通过内部网络签入,YARN 的 links 将使用集群内部主机名(主机名应包括您的 Dataproc 集群名称作为前缀),但这意味着如果您正在访问从外部网络来看,links 一开始可能不起作用;如果您使用基于防火墙的方法,则必须将主机名替换为外部 IP 地址。

更简单的体验是使用此处解释的 SOCKS 代理方法:https://cloud.google.com/dataproc/cluster-web-interfaces

在这种情况下,只需使用 gcloud compute ssh 到 运行 轻量级本地 socks 代理,然后打开指向该代理的浏览器,您就可以正常单击所有 YARN link .

时,我发现无法连接到dataproc image v1.0 的8080 或8088 端口。

master 节点上的开放端口建议使用 18080,我按照 the documentation 为端口 18080 做了,瞧:访问 webui。

因为我的 DataProc 集群中有 public 个地址,所以我在 Cloud Console 中创建了一条从公司子网到 DataProc 实例端口 8088 (YARN RM) 的防火墙规则,并且8042(NM Webapp 地址)。