为什么 spark 会在提交作业的机器中填充 tmp (spark.local.dir)？

Why is spark filling the tmp (spark.local.dir) in the machine that submits jobs?

我有一个以独立模式设置的 spark 1.2.1 集群，其中有一个主服务器和几个从服务器。然后我让我的数据科学家享受集群的力量。

一切正常。但是，我的数据科学家用来提交 Spark 作业的专用服务器的 spark.local.dir 已逐渐填满。

鉴于这台机器位于集群之外，既不是主机，也不是 worker/slave，我认为本地 spark.local.dir 不会以任何方式被 spark 使用。（为什么会这样？它只显示日志。）

我找不到详细说明这部分信息的好文档。有人有想法吗？

没有足够的关于您的设置的信息可以确定，但我猜测作业是在客户端模式下启动的，驱动程序将在您的客户端节点上。

来自 spark 文档：在客户端模式下，驱动程序与提交应用程序的客户端在同一进程中启动。然而，在集群模式下，驱动程序从集群内的一个 Worker 进程启动，客户端进程在完成提交应用程序的职责后立即退出，而无需等待应用程序完成。

我猜想在客户端模式下，应用程序的驱动程序（在您的客户端计算机上）需要大量的 scratch space 来管理这种情况下的其他工作人员。