如何在 jupyterhub 上为每个用户隔离 spark 会话?

How to isolate the spark session for each user on jupyterhub?

我有一个 AD 插件连接到我的 JupyterHub 安装,这样用户将通过 AD 连接器在 JupyterHub 上进行身份验证。

问题是,如果不同的用户通过 JupyterHub 上的 Jupyter Notebook 将他们的 Spark 作业提交到共享的底层 Spark 引擎,是否有一种方法可以让每个用户拥有他们的独立 Spark 会话而不是共享的?

非常感谢!

通过使用此部署模式:

  • 用户将连接到绑定到 AD
  • 的共享 JupyterHub
  • 如果他们通过身份验证,将生成一个新的 Jupyter Notebook(服务器)
  • 然后在他们的 Jupyter Notebook 中,他们将根据您的部署在本地或集群模式下使用 Spark。在这两种情况下,驱动程序专用于它们的使用(不共享)。

在此典型部署中,除了 Spark 集群(如果有)外,没有任何共享。每个用户都将能够获取和管理一个新的 SparkSession.

请参阅 jupyterhub-deploy-docker 中的图表。