为什么 spark 会在提交作业的机器中填充 tmp (spark.local.dir)?

Why is spark filling the tmp (spark.local.dir) in the machine that submits jobs?

我有一个以独立模式设置的 spark 1.2.1 集群,其中有一个主服务器和几个从服务器。然后我让我的数据科学家享受集群的力量。

一切正常。但是,我的数据科学家用来提交 Spark 作业的专用服务器的 spark.local.dir 已逐渐填满。

鉴于这台机器位于集群之外,既不是主机,也不是 worker/slave,我认为本地 spark.local.dir 不会以任何方式被 spark 使用。 (为什么会这样?它只显示日志。)

我找不到详细说明这部分信息的好文档。有人有想法吗?

没有足够的关于您的设置的信息可以确定,但我猜测作业是在客户端模式下启动的,驱动程序将在您的客户端节点上。

来自 spark 文档: 在客户端模式下,驱动程序与提交应用程序的客户端在同一进程中启动。然而,在集群模式下,驱动程序从集群内的一个 Worker 进程启动,客户端进程在完成提交应用程序的职责后立即退出,而无需等待应用程序完成。

我猜想在客户端模式下,应用程序的驱动程序(在您的客户端计算机上)需要大量的 scratch space 来管理这种情况下的其他工作人员。