在 Dataproc 中，如何访问 Spark 和 Hadoop 作业历史记录？

Question

在 Google Cloud Dataproc 中，我如何访问 Spark 或 Hadoop 作业历史服务器？我希望能够在运行工作时查看我的工作历史详细信息。

Answer 1

为此，您需要创建到集群的 SSH 隧道，然后在浏览器中使用 SOCKS 代理。这是因为当 Web 界面在集群上打开时，防火墙规则阻止任何人连接（出于安全考虑）。

要访问 Spark 或 Hadoop 作业历史记录服务器，您首先需要创建到集群主节点的 SSH 隧道：

gcloud compute ssh --zone=<master-host-zone> \ --ssh-flag="-D 1080" --ssh-flag="-N" --ssh-flag="-n" <master-host-name>

建立 SSH 隧道后，您需要配置浏览器以使用 SOCKS 代理。假设您正在使用 Chrome 并且知道系统上 Chrome 的路径，您可以使用 SOCKS 代理启动 Chrome：

<Google Chrome executable path> \
  --proxy-server="socks5://localhost:1080" \
  --host-resolver-rules="MAP * 0.0.0.0 , EXCLUDE localhost" \
  --user-data-dir=/tmp/

有关如何执行此操作的完整详细信息can be found here。

在 Dataproc 中，如何访问 Spark 和 Hadoop 作业历史记录？

In Dataproc how can I access the Spark and Hadoop job history?

google-cloud-dataproc