将 PySpark 会话连接到 DataProc

Connect PySpark session to DataProc

我正在尝试将 PySpark 会话 运行 本地连接到 DataProc 集群。我希望能够在不下载文件的情况下使用 gcs 上的文件。我的目标是使用本地 Spark 执行临时分析,然后在我准备好扩展时切换到更大的集群。我意识到 DataProc 在 Yarn 上运行 Spark,并且我已经在本地复制了 yarn-site.xml 。我还打开了一个从本地机器到 DataProc 主节点的 ssh 隧道,并为 yarn xml 中标识的端口设置了端口转发。它似乎并没有工作,但当我尝试在 Jupyter 笔记本中创建一个会话时,它无限期地挂起。我在 stdout 或 DataProc 日志中看不到任何内容。有人成功过吗?

对于任何感兴趣的人,我最终放弃了这种方法。我改为 运行 主节点上的 Jupyter Enterprise Gateway,设置端口转发,然后在本地启动我的笔记本以连接到服务器上的内核 运行。到目前为止效果很好。